Skip to content
The loss curve

GELU

Approximation lisse de ReLU utilisée dans les transformers. En gros x·Φ(x), où Φ est la CDF gaussienne.