Chargement en cours

Dépassez les limites des RNN : Entraînement d’un milliard de paramètres grâce à l’optimisation d’ordre zéro

Dépassez les limites des RNN : Entraînement d’un milliard de paramètres grâce à l’optimisation d’ordre zéro

L’entraînement de Réseaux Neuronaux Récurrents (RNN) de grande taille sur de longs contextes reste un défi majeur. Les méthodes d’optimisation standard, comme la rétropropagation temporelle (BPTT), nécessitent de stocker toutes les activations intermédiaires, ce qui limite considérablement la taille des modèles traitables. Une nouvelle approche, basée sur l’optimisation d’ordre zéro (ZOO), promet de révolutionner cette situation.

L’optimisation d’ordre zéro : une alternative prometteuse

L’article présenté explore l’utilisation de méthodes ZOO, telles que l’estimation de gradient par vecteur aléatoire (RGE), pour entraîner des RNN. Ces méthodes évitent le stockage des activations intermédiaires, permettant ainsi d’entraîner des modèles beaucoup plus grands. L’étude montre que ZOO atteint, voire dépasse, les performances de BPTT en termes de vitesse de convergence, tout en consommant beaucoup moins de mémoire.

Plus précisément, l’approche CD-RGE (Central-Difference RGE) est mise en avant, car elle correspond à l’optimisation d’une fonction de perte régularisée, améliorant la généralisation du modèle. Des résultats expérimentaux montrent une performance égale ou supérieure à BPTT dans différents contextes : sur-apprentissage, transduction et modélisation du langage.

Des résultats impressionnants : jusqu’à 19 fois plus rapide

L’étude démontre que l’utilisation de ZOO permet d’entraîner des RNNs avec un milliard de paramètres, une prouesse jusqu’alors impossible. La vitesse de convergence est parfois jusqu’à 19 fois supérieure à celle obtenue avec BPTT. Ceci est rendu possible grâce à des avancées récentes dans l’inférence distribuée et des techniques comme FlashRNN qui accélèrent considérablement les calculs. L’approche proposée présente des performances comparables ou meilleures que BPTT en termes de généralisation.

Points clés à retenir

  • ✓ L’optimisation d’ordre zéro (ZOO) offre une alternative efficace à BPTT pour l’entraînement de RNN.
  • ✓ Permet d’entraîner des RNNs de grande taille, jusqu’à un milliard de paramètres.
  • ✓ Convergence plus rapide (jusqu’à 19 fois plus rapide que BPTT).
  • ✓ Meilleure généralisation dans certains cas.

Sources

Share this content:

Laisser un commentaire