Skip to content
The loss curve

Modèle de langage

Un modèle qui attribue une probabilité au token suivant à partir des tokens précédents. La génération est un échantillonnage répété de cette probabilité.

Tous les LLM modernes sont des modèles de langage : on leur donne une séquence de tokens, ils produisent une distribution de probabilité sur le vocabulaire. Le bigramme du chapitre 1, le transformer du chapitre 10 et GPT-4 partagent cette interface — seule la fonction au milieu change.