Pourquoi le mot 'unhappiness' pourrait-il être découpé en ['un', 'happi', 'ness'] par un tokenizer BPE plutôt qu'en caractères individuels ?