Skip to content
The loss curve

Token

L’unité de base qu’un modèle lit et écrit. Souvent un sous-mot, parfois un mot, parfois un caractère.

La tokenization est la première étape d’un pipeline de modèle de langage. Les tokenizers par espaces coupent les mots ; les tokenizers BPE apprennent une granularité entre mots et caractères.