Transformer

Architecture composée de blocs empilés attention multi-têtes + FFN avec résidus et layer norms. Dominante pour les LLM depuis 2017.

Continuer

← Tous les termes Voir les chapitres