Byte-Pair Encoding (BPE)
Méthode de tokenization qui part des caractères et fusionne progressivement la paire adjacente la plus fréquente.
À l’origine un algorithme de compression de données (1994). Utilisé par GPT-2/3/4 et la plupart des LLM modernes. Les fusions découvrent la morphologie : des suffixes comme « ing » ou « ed » émergent naturellement comme sous-mots fréquents.
Continuer