Skip to content
The loss curve

Attention multi-têtes

Plusieurs têtes d’attention en parallèle, chacune avec ses projections Q/K/V, puis concaténées et reprojetées.