Byte-Pair Encoding (BPE)

Méthode de tokenization qui part des caractères et fusionne progressivement la paire adjacente la plus fréquente.

À l’origine un algorithme de compression de données (1994). Utilisé par GPT-2/3/4 et la plupart des LLM modernes. Les fusions découvrent la morphologie : des suffixes comme « ing » ou « ed » émergent naturellement comme sous-mots fréquents.

Continuer

← Tous les termes Voir les chapitres