Quantification
Stocker les poids en entiers basse précision (INT8, INT4) plutôt qu’en floats. Réduit taille et coût d’inférence.
Continuer
Stocker les poids en entiers basse précision (INT8, INT4) plutôt qu’en floats. Réduit taille et coût d’inférence.
Continuer