Alignement
Le travail qui transforme un prédicteur de prochain token en assistant utile : SFT, puis RLHF ou DPO sur préférences humaines.
Continuer
Le travail qui transforme un prédicteur de prochain token en assistant utile : SFT, puis RLHF ou DPO sur préférences humaines.
Continuer