Skip to content
The loss curve

Bigramme

Une paire de tokens consécutifs. C’est l’unité de contexte la plus simple qu’un modèle de langage puisse utiliser.

Un modèle bigramme donne une probabilité à un token uniquement à partir du token juste avant lui : P(w_t | w_{t-1}). Il ne voit pas plus loin qu’une position, mais c’est déjà un modèle de langage fonctionnel.