Chinchilla AI : le tueur DeepMind ChatGPT ?
Depuis 2020, les fabricants sortent régulièrement des modèles de plus en plus gros comme le GPT-3 (175B), LaMDA (137B), Jurassic-1 (178B), Megatron-Turing NLG (530B) et Gopher (280B). Selon la loi de Kaplan, ces modèles sont une amélioration par rapport à leurs prédécesseurs (GPT-2, BERT), mais ils sont encore en deçà de leur plein potentiel.
Dans leur article le plus récent, les chercheurs de DeepMind décortiquent l’idée reçue selon laquelle des modèles plus complexes sont synonymes de meilleures performances.
La société a découvert une méthode jusque-là inexploitée de mise à l’échelle de grands modèles de langage. Pour construire des modèles de langage efficaces, les grandes entreprises technologiques comme OpenAI, Google, Microsoft, Nvidia, Facebook et même DeepMind ratent toutes la cible en rendant les modèles trop volumineux.
Ils ont conclu à tort que l’augmentation de la taille du modèle était le seul moyen de l’améliorer. Ils ont omis de prendre en compte un élément clé : l’information.
Les découvertes de DeepMind définiront la mise à l’échelle du modèle de langage à l’avenir
Table des matières
Dans un nouvel article (« Training Compute-Optimal Large Language Models » par Hoffmann et al. ), les chercheurs de DeepMind ont réexaminé les découvertes de Kaplan et ont conclu que la mise à l’échelle du nombre de jetons d’entraînement (c’est-à-dire la quantité de données textuelles introduites dans le modèle) est juste aussi important que la mise à l’échelle de la taille du modèle.
Étant donné un budget de calcul fixe, les chercheurs doivent l’allouer dans des proportions similaires pour augmenter la taille du modèle et le nombre de jetons d’entraînement afin d’obtenir le modèle de calcul optimal (mesuré par une perte d’entraînement minimale) (mesuré par une perte d’entraînement minimale). Afin d’entraîner correctement un modèle suffisamment grand, il est recommandé d’augmenter le nombre de jetons d’entraînement d’un facteur de deux pour chaque doublement de la taille du modèle.
Cela signifie qu’un modèle plus petit peut considérablement surpasser un modèle plus grand, mais sous-optimal, s’il est formé sur un nombre beaucoup plus grand de jetons.
De plus, ils en ont donné la preuve. Le dernier article se concentre sur Chinchilla, un modèle de 70 paramètres B formé sur 4 fois plus de données que l’ancien leader de l’IA linguistique, Gopher (également construit par DeepMind). Selon les études, Chinchilla est supérieur aux autres systèmes NLG comme Gopher, GPT-3, Jurassic-1 et Megatron-Turing NLG.
La conclusion simple est que les grands modèles de langage actuels sont « significativement sous-entraînés » parce que les chercheurs ont suivi aveuglément l’hypothèse de mise à l’échelle.
Non seulement cela, mais aussi. La taille réduite de Chinchilla rend l’inférence et le réglage fin plus abordables, ouvrant la possibilité d’utiliser ces modèles dans des environnements où ni l’argent ni le matériel de pointe ne seraient autrement un obstacle. « Les avantages d’un modèle plus petit et mieux formé s’étendent au-delà des avantages immédiats d’une performance améliorée. »
Grands modèles de langage optimaux pour le calcul
Le budget de calcul est généralement le facteur limitant — connu à l’avance et indépendant. La taille du modèle et le nombre de jetons de formation sont irrémédiablement déterminés par le montant que l’entreprise peut dépenser pour un meilleur matériel. Pour étudier l’impact de ces variables sur les performances, les chercheurs de DeepMind se sont penchés sur cette question : « Étant donné un budget FLOP fixe, comment doit-on faire un compromis entre la taille du modèle et le nombre de jetons d’entraînement ? »
Comme indiqué ci-dessus, des modèles tels que GPT-3, Gopher et MT-NLG suivent les lois d’échelle conçues par Kaplan (tableau 1). Pour mettre un exemple concret, si le budget de calcul augmente d’un facteur de 10, la loi de Kaplan prédit des performances optimales lorsque la taille du modèle est augmentée de 5,5x et le nombre de jetons d’entraînement est augmenté de 1,8x.

Kaplan et ses collègues sont arrivés à cette conclusion parce qu’ils ont fixé le nombre de jetons d’entraînement dans leur analyse. Cette hypothèse les a empêchés de trouver la réponse de DeepMind – que la taille du modèle et le nombre de jetons devraient augmenter en parallèle, d’environ 3,16x (ou √10x).
Pour étudier la relation entre le budget de calcul, la taille du modèle et le nombre de jetons d’entraînement, les chercheurs ont utilisé trois approches (voir la section 3 de l’article pour une explication plus détaillée).
- Taille de modèle fixe : ils ont défini une famille de tailles de modèles (70M-16B) et fait varier le nombre de jetons d’entraînement (4 variantes) pour chaque modèle. Ils ont ensuite déterminé la combinaison optimale pour chaque budget de calcul. En utilisant cette approche, un modèle de calcul optimal formé avec la même quantité de calcul que Gopher aurait 67 B de paramètres et 1,5 T de jetons.
- Courbes IsoFLOP : elles ont fixé le budget de calcul (9 variations allant de 6×10¹⁸ à 3×10²¹) et exploré la taille du modèle (déterminant automatiquement le nombre de jetons). En utilisant cette approche, un modèle de calcul optimal formé avec la même quantité de calcul que Gopher aurait des paramètres 63B et des jetons 1.4T.
- Ajustement d’une fonction de perte paramétrique : en utilisant les résultats des approches 1 et 2, ils ont modélisé les pertes en tant que fonctions paramétriques de la taille du modèle et du nombre de jetons. En utilisant cette approche, un modèle de calcul optimal formé avec la même quantité de calcul que Gopher aurait des paramètres 40B.
Au total, ils ont évalué plus de 400 modèles, allant de 70 M à 16 B de paramètres et de 5 B à 500 B de jetons d’entraînement. Les trois approches ont donné des prédictions similaires pour la taille optimale du modèle et le nombre de jetons d’entraînement, ce qui est très différent de celui de Kaplan.
Ces résultats suggèrent que les modèles de la génération actuelle sont « considérablement surdimensionnés, compte tenu de leurs budgets de calcul respectifs » (figure 1).

Comme le montre le tableau 3 (première approche), un modèle 175B (de type GPT-3) doit être formé avec un budget de calcul de 3,85 × 10²⁴ FLOPs et formé sur des jetons 3,7T (plus de 10 fois ce qu’OpenAI a utilisé pour leur GPT -3 modèle 175B). Un modèle 280B (de type Gopher) doit être formé avec des FLOP de 9,90 × 10²⁴ et sur des jetons de 5,9 T (20 fois ce que DeepMind a utilisé pour Gopher ).

Ils ont pris les estimations prudentes (approches 1 et 2) pour déterminer la taille et le nombre de jetons d’entraînement d’un modèle de calcul optimal formé sur le budget qu’ils ont utilisé pour Gopher. Chinchilla est le modèle résultant. Paramètres 70B, formés sur des jetons 1.4T (4x plus petits et 4x plus de données que Gopher). Chinchilla a surpassé Gopher – et tous les autres modèles de langage précédents – « de manière uniforme et significative ».
Ils ont prouvé leur hypothèse : augmenter le nombre de jetons d’entraînement au même rythme que la taille du modèle donne les meilleurs résultats, toutes choses étant égales par ailleurs.
Comparaison des résultats : Chinchilla vs Gopher & Co
Lorsque nous examinons les résultats de chaque indice de référence, dire que Chinchilla a surpassé Gopher semble être un euphémisme. Pour éviter d’encombrer l’article de graphiques, je ne montrerai que les résultats pour Massive Multitask Language Understanding (MMLU) et Big-bench (qui représentent 80% des tâches) et les benchmarks liés à l’éthique — qui méritent toujours une attention particulière. (Pour une analyse détaillée comprenant des repères de lecture, de bon sens et de questions-réponses, voir la section 4 du document.)
MMLU & BIG-banc
Chinchilla a obtenu de nouveaux scores SOTA dans les deux benchmarks. 67,6 % de précision moyenne sur MMLU et 65,1 % de précision moyenne sur BIG-bench, tandis que Gopher a obtenu respectivement 60 % et 54,4 % (figures 2, 3). Pour MMLU, Chinchilla dépasse même la barre des 63,4% établie par les experts comme le SOTA prédit pour juin 2023. Personne ne s’attendait à une telle amélioration si tôt.


Chinchilla surpasse systématiquement les LLM précédents dans d’autres critères tels que le raisonnement de bon sens et la compréhension de la lecture, revendiquant sans aucun doute le trône de l’IA linguistique.
Cependant, son hégémonie fut de courte durée. Chinchilla a été rapidement dépassé par le dernier modèle de Google, PaLM, une semaine seulement après sa sortie (à 540 B de paramètres, il est devenu le modèle de langage actuel le plus grand et le plus performant). Cette chaîne continue de passages entre les entreprises illustre le rythme rapide du domaine. Bien que Google n’ait pas entièrement intégré les découvertes de DeepMind lors du développement de PaLM, cela était dû au fait qu’ils testaient une approche différente. (Recherchez un nouvel article sur PaLM bientôt !)
Préjugés sexistes et toxicité
On s’attend à ce que Chinchilla, qui partage le même ensemble de données et la même architecture que Gopher, affiche un comportement similaire en ce qui concerne les biais et la toxicité. Il montre quelques améliorations par rapport à Gopher dans l’ensemble de données Winogender sur les biais liés au sexe et à la profession (tableau 7), mais pas de manière égale entre les groupes.

Dans le benchmark de toxicité PerspectiveAPI, Chinchilla et Gopher montrent des résultats similaires : « La grande majorité des échantillons générés sont classés comme non toxiques, et la différence entre les modèles est négligeable. » Cela implique également que, même si un modèle est formé sur plus de données, il ne devient pas nécessairement plus toxique.
Hypothèse : Comment pourraient-ils encore améliorer les performances de Chinchilla ?
DeepMind a découvert une nouvelle relation entre le budget de calcul, la taille du modèle et le nombre de jetons d’entraînement. Cependant, ce ne sont pas les seuls facteurs qui influencent les performances et l’efficacité.
Trouver les meilleurs hyperparamètres est un problème majeur lors de la formation de grands modèles (HP). Étant donné que les modèles de langage actuels sont si vastes, les entreprises ne peuvent se permettre de les former qu’une seule fois : il est impossible de trouver le meilleur ensemble de HP. Pour les définir, les chercheurs doivent souvent formuler des hypothèses difficiles – et souvent incorrectes.
Microsoft et OpenAI ont récemment étudié un nouveau type de paramétrage (P) qui s’adapte bien aux modèles de différentes tailles de la même famille. Les meilleurs HP d’un modèle plus petit peuvent être transférés vers le modèle plus grand, ce qui donne des résultats nettement meilleurs.
L’article de DeepMind mentionne des travaux antérieurs sur le réglage des hyperparamètres, mais pas cet article, qui a été publié il y a quelques semaines. L’utilisation du paradigme de calcul optimal en conjonction avec le P devrait produire des résultats encore meilleurs pour tout grand modèle de langage.
Un mécanisme de récupération pourrait être une autre amélioration.
Bien qu’il soit 25 fois plus petit, RETRO a surpassé GPT-3 dans toutes les tâches. En raison de ses capacités de récupération, le modèle a pu accéder à une base de données massive (tokens 3T) en temps réel (d’une manière analogue à la façon dont nous effectuons des recherches sur Internet).
Enfin, si nous voulions aller plus loin, une technique d’alignement pourrait améliorer les résultats non seulement dans les benchmarks linguistiques mais aussi dans des situations réelles. Avec d’excellents résultats de performance, OpenAI a implémenté une méthode pour améliorer GPT-3 dans InstructGPT. Cependant, l’alignement de l’IA est extrêmement complexe et InstructGPT ne semble pas s’améliorer en termes de sécurité ou de toxicité par rapport aux modèles précédents.
Si une entreprise combinait toutes ces fonctionnalités dans un seul modèle, elle créerait le meilleur modèle global possible sur la base de ce que nous savons maintenant sur les grands modèles de langage.
Quatre réflexions critiques de Chinchilla
Une nouvelle tendance
Les performances de Chinchilla sont impressionnantes non seulement en raison de l’ampleur de l’amélioration, mais aussi parce que le modèle est plus petit que tous les grands modèles de langage développés au cours des deux dernières années qui ont démontré les performances SOTA. Au lieu de se concentrer sur l’augmentation de la taille des modèles, comme l’ont suggéré de nombreux experts en IA, les entreprises et les chercheurs devraient optimiser les ressources et les paramètres dont ils disposent, sinon ils gaspillent leur argent.
Chinchilla change la donne en termes de performances et d’efficacité.
Parce que le PaLM de Google a obtenu des résultats SOTA dans de nombreux benchmarks, les performances de Chinchilla ne sont plus les meilleures dans le domaine. Cependant, l’influence principale de Chinchilla vient du fait qu’il est extrêmement bon tout en brisant le schéma consistant à fabriquer des modèles de plus en plus grands.
Les ramifications de cela façonneront l’avenir du domaine. Pour commencer, les entreprises doivent reconnaître que la taille du modèle n’est qu’une des nombreuses variables qui affectent les performances. Deuxièmement, cela pourrait atténuer les attentes du public à l’égard de modèles toujours plus grands à l’avenir, signe que nous nous rapprochons de l’AGI beaucoup plus rapidement que nous ne le sommes en réalité. Enfin, cela peut aider à réduire l’impact environnemental des grands modèles ainsi que les barrières à l’entrée pour les petites entreprises qui ne peuvent pas suivre le rythme des grandes technologies.
Cela m’amène à mon deuxième point de réflexion.
Reproductibilité limitée
Chinchilla est un petit modèle, mais il est encore trop rare que la plupart des entreprises et des écoles consacrent des ressources à sa formation ou à son étude. Personne décrivant un 70B comme « petit » ne peut ignorer les implications de cette déclaration.
Ceux qui bénéficieraient le plus de l’étude de ces modèles (les chercheurs) n’ont généralement pas les moyens financiers de mener les expériences nécessaires. En conséquence, l’IA moderne est soutenue de manière précaire par un petit groupe d’entreprises puissantes qui définissent le programme de recherche.
Mais il existe également un autre obstacle non monétaire au progrès.
Il est peu probable que Chinchilla soit rendu public par DeepMind. Google et OpenAI ont déclaré qu’ils n’envisageaient pas de publier prochainement leurs bibliothèques d’apprentissage en profondeur respectives. Dans de nombreux cas, la publication de tels modèles ne sert qu’à montrer qui est à la pointe du domaine, plutôt qu’à faciliter une étude plus approfondie.
Bien que DeepMind soit l’une des sociétés d’IA qui a le plus fait progresser la science et la recherche en partageant ses découvertes (elles ont rendu les prédictions AlphaFold librement disponibles), la culture de la démonstration est toujours omniprésente dans l’industrie dans son ensemble.
En créant un modèle plus efficace et compact, DeepMind espère renverser une tendance à la baisse. Néanmoins, nous devons être fiers du chemin parcouru dans la démocratisation d’une technologie qui va remodeler notre avenir, d’autant plus que Chinchilla est toujours un modèle majeur. Construire une AGI sera inutile si nous continuons sur la voie actuelle de quelques privilégiés contrôlant le financement, l’orientation et les résultats de la recherche scientifique.
Vérification des données
La formation des modèles actuels est insuffisante (ou surdimensionnée). Afin de construire des modèles de calcul optimal, les entreprises auront besoin d’ensembles de données plus étendus que ceux auxquels elles ont généralement accès. De grands ensembles de données textuelles de haute qualité seront demandés dans un proche avenir.
Le professeur de linguistique à l’Université de Washington, Emily M. Bender, a critiqué l’approche de Google en matière de PaLM, affirmant que le modèle est « trop volumineux pour être déployé en toute sécurité » car il utilise des jetons de données 780B pour la formation sans documentation adéquate. Plus de jetons ont été utilisés pour entraîner Chinchilla. Étant donné que les critiques de Bender peuvent être extrapolées à Chinchilla (selon le processus utilisé par DeepMind pour former le modèle), nous pouvons conclure qu’il n’est pas non plus sûr de le déployer.
Pour améliorer les modèles tout en les gardant compacts, davantage de données sont nécessaires. Cependant, la sécurité des modèles diminue à mesure que davantage de données sont utilisées. Les modèles peuvent être agrandis (hors de portée de la plupart des joueurs sur le terrain et augmentant leur empreinte carbone) ou entraînés sur plus de jetons, mais cela a un coût (c’est-à-dire rendre les audits de données plus difficiles et les modèles moins sûrs). Ce n’est plus une comparaison juste de dire que Chinchilla est meilleur simplement parce qu’il est plus petit.
Il est également possible de détourner des ressources vers d’autres voies de recherche qui ne nécessitent pas l’utilisation d’énormes ensembles de données pour la formation de modèles. Étant donné que seules les Big Tech peuvent se permettre de poursuivre les voies de recherche qu’elles trouvent les plus prometteuses, seules ces voies donnent des résultats ; non pas parce que d’autres avenues ne peuvent pas fonctionner, mais parce qu’elles ne sont pas exploitées à leur plein potentiel.
Biais inhérent
Il semble que peu importe à quel point les chercheurs optimisent les modèles en termes de performances ou d’efficacité, ils ne semblent pas pouvoir atteindre des niveaux acceptables de biais et de toxicité. Les grands modèles de langage basés sur des transformateurs peuvent être intrinsèquement soumis à ces problèmes, quelle que soit la taille du modèle, la taille de l’ensemble de données, la qualité des hyperparamètres, le budget de calcul, etc.
Nous ne résoudrons pas les problèmes éthiques des modèles linguistiques simplement en les améliorant au niveau des performances.