Skip to content
The loss curve

Alignement

Le travail qui transforme un prédicteur de prochain token en assistant utile : SFT, puis RLHF ou DPO sur préférences humaines.