Token
L’unité de base qu’un modèle lit et écrit. Souvent un sous-mot, parfois un mot, parfois un caractère.
La tokenization est la première étape d’un pipeline de modèle de langage. Les tokenizers par espaces coupent les mots ; les tokenizers BPE apprennent une granularité entre mots et caractères.
Continuer