Skip to content
The loss curve

Transformer

Architecture composée de blocs empilés attention multi-têtes + FFN avec résidus et layer norms. Dominante pour les LLM depuis 2017.