Transformer
Architecture composée de blocs empilés attention multi-têtes + FFN avec résidus et layer norms. Dominante pour les LLM depuis 2017.
Continuer
Architecture composée de blocs empilés attention multi-têtes + FFN avec résidus et layer norms. Dominante pour les LLM depuis 2017.
Continuer