Alignement

Le travail qui transforme un prédicteur de prochain token en assistant utile : SFT, puis RLHF ou DPO sur préférences humaines.

Continuer

← Tous les termes Voir les chapitres