Une nouvelle tendance IA : Chinchilla (70 B) surpasse largement GPT-3 (175 B) et Gopher (280 B)
DeepMind a trouvé le secret pour mettre à l’échelle à moindre coût de grands modèles de langage.
Le dernier article de DeepMind démantèle la tendance fatiguée de construire des modèles de plus en plus grands pour améliorer les performances.
La société a trouvé un aspect clé de la mise à l’échelle de grands modèles de langage que personne n’avait jamais appliqué auparavant. OpenAI, Google, Microsoft, Nvidia, Facebook et même DeepMind eux-mêmes, toutes les grandes entreprises technologiques engagées dans la création de modèles de langage puissants, font fausse route : agrandir les modèles n’est ni la meilleure ni la plus efficace.
L’augmentation de la taille du modèle en tant que proxy pour l’augmentation des performances a été établie en 2020 par Kaplan et d’autres chez OpenAI. Ils ont trouvé une loi de puissance entre ces variables et ont conclu que, comme plus de budget est disponible pour former des modèles, la majorité devrait être allouée à leur agrandissement.
C’est pourquoi nous avons vu des modèles toujours plus grands sortir tous les quelques mois depuis 2020 : GPT-3 (175B), LaMDA (137B), Jurassic-1 (178B), Megatron-Turing NLG (530B), Gopher (280B) — et ce ne sont que les modèles denses. Comme le prédit la loi de Kaplan, ces modèles sont nettement meilleurs que la génération précédente (GPT-2, BERT), mais pas aussi bons qu’ils auraient pu l’être.
Ils sont arrivés à la mauvaise conclusion en pensant que la taille du modèle portait toute la responsabilité de l’amélioration des modèles. Ils ont manqué un autre facteur clé : les données.
Les découvertes de DeepMind définiront la mise à l’échelle du modèle de langage à l’avenir
Dans un nouvel article (« Training Compute-Optimal Large Language Models » par Hoffmann et al.), les chercheurs de DeepMind ont revu les conclusions de Kaplan et ont découvert que la mise à l’échelle du nombre de jetons d’entraînement (c’est-à-dire la quantité de données textuelles alimentées par le modèle) est aussi important que la mise à l’échelle de la taille du modèle.
Étant donné un budget de calcul fixe, les chercheurs doivent l’allouer dans des proportions similaires pour augmenter la taille du modèle et le nombre de jetons d’entraînement afin d’atteindre le modèle de calcul optimal (mesuré par une perte d’entraînement minimale). « Pour chaque doublement de la taille du modèle, le nombre de jetons d’entraînement doit également être doublé. » Cela implique qu’un modèle plus petit peut largement surpasser un modèle plus grand – mais sous-optimal – s’il est formé sur un nombre de jetons significativement plus élevé.
Et ils l’ont prouvé. La vedette du nouvel article est Chinchilla, un modèle à 70 paramètres B 4 fois plus petit que le précédent leader de l’IA linguistique, Gopher (également construit par DeepMind), mais formé sur 4 fois plus de données. Les chercheurs ont découvert que Chinchilla surpasse « de manière uniforme et significative » Gopher, GPT-3, Jurassic-1 et Megatron-Turing NLG sur un large éventail de références linguistiques.
La conclusion est claire : les grands modèles de langage actuels sont « considérablement sous-entraînés », ce qui est la conséquence du fait de suivre aveuglément l’hypothèse de mise à l’échelle – rendre les modèles plus grands n’est pas le seul moyen d’améliorer les performances.
Et pas seulement ça. Parce que Chinchilla est plus petit, l’inférence et le réglage fin coûtent moins cher, ce qui facilite l’utilisation de ces modèles pour les petites entreprises ou les universités qui n’ont peut-être pas le budget ou le matériel de dernière génération pour exécuter des modèles plus grands. « Les avantages d’un modèle plus petit formé de manière plus optimale vont donc au-delà des avantages immédiats de ses performances améliorées. »
Grands modèles de langage optimaux pour le calcul
Le budget de calcul est généralement le facteur limitant — connu à l’avance et indépendant. La taille du modèle et le nombre de jetons de formation sont irrémédiablement déterminés par le montant que l’entreprise peut dépenser pour un meilleur matériel. Pour étudier l’impact de ces variables sur les performances, les chercheurs de DeepMind se sont penchés sur cette question : « Étant donné un budget FLOP fixe, comment doit-on faire un compromis entre la taille du modèle et le nombre de jetons d’entraînement ? »
Comme indiqué ci-dessus, des modèles tels que GPT-3, Gopher et MT-NLG suivent les lois d’échelle conçues par Kaplan (tableau 1). Pour mettre un exemple concret, si le budget de calcul augmente d’un facteur de 10, la loi de Kaplan prédit des performances optimales lorsque la taille du modèle est augmentée de 5,5x et le nombre de jetons d’entraînement est augmenté de 1,8x.

Kaplan et ses collègues sont arrivés à cette conclusion parce qu’ils ont fixé le nombre de jetons d’entraînement dans leur analyse. Cette hypothèse les a empêchés de trouver la réponse de DeepMind – que la taille du modèle et le nombre de jetons devraient augmenter en parallèle, d’environ 3,16x (ou √10x).
Pour étudier la relation entre le budget de calcul, la taille du modèle et le nombre de jetons d’entraînement, les chercheurs ont utilisé trois approches (voir la section 3 de l’article pour une explication plus détaillée).
- Taille de modèle fixe : ils ont défini une famille de tailles de modèles (70M-16B) et fait varier le nombre de jetons d’entraînement (4 variantes) pour chaque modèle. Ils ont ensuite déterminé la combinaison optimale pour chaque budget de calcul. En utilisant cette approche, un modèle de calcul optimal formé avec la même quantité de calcul que Gopher aurait 67 B de paramètres et 1,5 T de jetons.
- Courbes IsoFLOP : elles ont fixé le budget de calcul (9 variations allant de 6×10¹⁸ à 3×10²¹) et exploré la taille du modèle (déterminant automatiquement le nombre de jetons). En utilisant cette approche, un modèle de calcul optimal formé avec la même quantité de calcul que Gopher aurait des paramètres 63B et des jetons 1.4T.
- Ajustement d’une fonction de perte paramétrique : en utilisant les résultats des approches 1 et 2, ils ont modélisé les pertes en tant que fonctions paramétriques de la taille du modèle et du nombre de jetons. En utilisant cette approche, un modèle de calcul optimal formé avec la même quantité de calcul que Gopher aurait des paramètres 40B.
Au total, ils ont évalué plus de 400 modèles, allant de 70 M à 16 B de paramètres et de 5 B à 500 B de jetons d’entraînement. Les trois approches ont donné des prédictions similaires pour la taille optimale du modèle et le nombre de jetons d’entraînement, ce qui est très différent de celui de Kaplan.
Ces résultats suggèrent que les modèles de la génération actuelle sont « considérablement surdimensionnés, compte tenu de leurs budgets de calcul respectifs » (figure 1).

Comme le montre le tableau 3 (première approche), un modèle 175B (de type GPT-3) doit être formé avec un budget de calcul de 3,85×10²⁴ FLOPs et formé sur des jetons 3,7T (plus de 10 fois ce qu’OpenAI a utilisé pour leur GPT- 3 modèle 175B). Un modèle 280B (de type Gopher) doit être formé avec des FLOP 9,90×10²⁴ et sur des jetons 5,9T (20 fois ce que DeepMind a utilisé pour Gopher).

Ils ont pris les estimations prudentes (approches 1 et 2) pour déterminer la taille et le nombre de jetons d’entraînement d’un modèle de calcul optimal formé sur le budget qu’ils ont utilisé pour Gopher. Chinchilla est le modèle résultant. Paramètres 70B, formés sur des jetons 1.4T (4x plus petits et 4x plus de données que Gopher). Chinchilla a surpassé Gopher – et tous les autres modèles de langage précédents – « de manière uniforme et significative ».
Ils ont prouvé leur hypothèse : augmenter le nombre de jetons d’entraînement au même rythme que la taille du modèle donne les meilleurs résultats, toutes choses étant égales par ailleurs.
Comparaison des résultats : Chinchilla vs Gopher & Co
Dire que Chinchilla a surpassé Gopher semble être un euphémisme lorsque nous examinons les résultats de chaque référence. Pour ne pas surcharger l’article de graphiques, je ne montrerai ci-dessous que les résultats pour Massive Multitask Language Understanding (MMLU) et Big-bench (qui représentent 80% des tâches) et les benchmarks liés à l’éthique – qui méritent toujours un examen préférentiel. (Voir la section 4 du document pour une analyse détaillée qui comprend des repères de lecture, de bon sens et de questions-réponses.)
MMLU & BIG-banc
Chinchilla a obtenu de nouveaux scores SOTA dans les deux benchmarks. 67,6 % de précision moyenne sur MMLU et 65,1 % de précision moyenne sur BIG-bench, tandis que Gopher a obtenu respectivement 60 % et 54,4 % (figures 2, 3). Pour MMLU, Chinchilla dépasse même la barre des 63,4% établie par les experts comme le SOTA prédit pour juin 2023. Personne ne s’attendait à une telle amélioration si tôt.


Chinchilla surpasse uniformément les LLM précédents sur d’autres critères tels que le raisonnement de bon sens et la compréhension de la lecture, revendiquant sans aucun doute le trône de l’IA linguistique.
Cependant, sa domination a duré très peu. Chinchilla a encore été dépassé une semaine seulement après sa sortie par le dernier modèle de Google, PaLM (à 540 B de paramètres, il est devenu le modèle de langage le plus grand et le plus performant actuel). Cette chaîne continue de passages entre les entreprises illustre le rythme rapide du domaine. Bien que Google n’ait pas pleinement pris en compte les conclusions de DeepMind pour créer PaLM, c’est parce qu’ils testaient une approche différente. (Attendez-vous à un nouvel article bientôt sur PaLM!)
Préjugés sexistes et toxicité
On s’attend à ce que Chinchilla, qui partage le même ensemble de données et la même architecture que Gopher, affiche un comportement similaire en ce qui concerne les biais et la toxicité. Il montre quelques améliorations par rapport à Gopher dans l’ensemble de données Winogender sur les biais liés au sexe et à la profession (tableau 7), mais pas de manière égale entre les groupes.

Dans le benchmark de toxicité PerspectiveAPI, Chinchilla et Gopher montrent des résultats similaires : « La grande majorité des échantillons générés sont classés comme non toxiques, et la différence entre les modèles est négligeable. » Cela implique également que, même si un modèle est formé sur plus de données, il ne devient pas nécessairement plus toxique.
Hypothèse : Comment pourraient-ils encore améliorer les performances de Chinchilla ?
DeepMind a découvert une nouvelle relation entre le budget de calcul, la taille du modèle et le nombre de jetons d’entraînement. Mais ce ne sont pas les seuls paramètres qui affectent les performances et l’efficacité.
Un problème clé lors de la formation de grands modèles est de trouver les hyperparamètres optimaux (HP). Les modèles linguistiques actuels sont si importants que les entreprises ne peuvent se permettre de les former qu’une seule fois : rechercher le meilleur ensemble de HP est impossible. Les chercheurs doivent souvent faire des hypothèses difficiles – souvent erronées – pour les établir.
Récemment, Microsoft et OpenAI ont étudié un nouveau type de paramétrage (μP) qui s’adapte bien aux modèles de différentes tailles de la même famille. Les HP optimaux pour un modèle plus petit peuvent être transférés vers le modèle plus grand, ce qui donne des résultats considérablement meilleurs.
L’article de DeepMind mentionne des travaux antérieurs sur le réglage des hyperparamètres, mais pas cet article particulier paru il y a quelques semaines. La combinaison du paradigme de calcul optimal avec le μP donnerait vraisemblablement des résultats encore meilleurs pour tout grand modèle de langage.
Une autre amélioration pourrait être un mécanisme de récupération. RETRO a égalé les performances de GPT-3 dans toutes les tâches malgré sa taille 25 fois plus petite. Ses capacités de récupération ont permis au modèle d’accéder à une énorme base de données (tokens 3T) en temps réel (d’une manière analogue à la façon dont nous effectuons des recherches sur Internet).
Enfin, si nous voulions parcourir le dernier kilomètre, une technique d’alignement pourrait améliorer les résultats non seulement dans les référentiels linguistiques, mais aussi dans des situations réelles. OpenAI a utilisé une méthode pour améliorer GPT-3 en InstructGPT avec d’excellents résultats de performance. Cependant, l’alignement de l’IA est extrêmement complexe et InstructGPT ne semble pas s’améliorer par rapport aux modèles précédents en termes de sécurité ou de toxicité.
Si une entreprise combinait toutes ces fonctionnalités en un seul modèle, elle créerait le meilleur modèle global possible avec ce que nous savons aujourd’hui sur les grands modèles de langage.
Quatre réflexions critiques de Chinchilla
Une nouvelle tendance
Les performances de Chinchilla ne sont pas seulement impressionnantes en termes d’ampleur de l’amélioration, mais plus encore parce que le modèle est plus petit que tous les grands modèles de langage développés au cours des deux dernières années qui ont montré des performances SOTA. Au lieu de se concentrer sur l’agrandissement des modèles, comme l’ ont critiqué de nombreux experts en IA , les entreprises et les chercheurs devraient se concentrer sur l’optimisation des ressources et des paramètres dont ils disposent, sinon ils gaspillent leur argent.
En termes de performances et d’efficacité, Chinchilla est une percée.
Les performances de Chinchilla ne sont plus les meilleures sur le terrain, car le PaLM de Google a obtenu des résultats SOTA dans de nombreux benchmarks. Cependant, la principale influence de Chinchilla ne réside pas dans le fait d’être le meilleur modèle, mais dans le fait d’être extrêmement bon tout en brisant le schéma consistant à fabriquer des modèles de plus en plus grands.
Les conséquences de cela définiront l’avenir du domaine. Premièrement, les entreprises doivent reconnaître que la taille du modèle n’est pas la seule variable qui compte pour les performances, mais l’une parmi tant d’autres. Deuxièmement, cela peut calmer l’engouement du grand public pour voir des modèles toujours plus grands à l’avenir – comme un signe que nous nous rapprochons d’AGI beaucoup plus rapidement que nous ne le sommes réellement. Enfin, cela peut aider à réduire les effets environnementaux des grands modèles et les barrières à l’entrée pour les petites entreprises qui ne peuvent pas suivre la grande technologie.
Ce dernier point m’amène à la deuxième réflexion.
Reproductibilité limitée
Bien qu’il soit plus petit que les autres modèles, il est toujours impossible pour la plupart des entreprises et des universités de former ou d’étudier des modèles comme Chinchilla. Appeler un modèle 70B « petit » devrait faire comprendre à tout le monde à quel point cela est problématique. La plupart des entités qui disposent des ressources humaines nécessaires (des chercheurs qui peuvent tirer le meilleur parti de l’étude de ces modèles) n’ont pas la profondeur financière pour mener à bien les expérimentations nécessaires. Pour cette raison, l’IA actuelle est construite sur des fondations fragiles et dirigée par quelques grandes entreprises qui définissent les directions dans lesquelles la science se fait.
Mais il y a un autre facteur limitant sans rapport avec l’argent.
DeepMind ne publiera probablement pas Chinchilla. Google ne publiera pas non plus PaLM et OpenAI ne publiera pas DALL·E – du moins pendant qu’ils sont pertinents. Ces modèles ne sont souvent publiés que pour signaler qui fait progresser l’état de l’art, mais sans intention de laisser d’autres les utiliser à des fins de recherche. À leur crédit, DeepMind est l’une des sociétés d’IA qui ont fait les plus grands efforts pour faire avancer la science et la recherche en permettant à d’autres de s’appuyer sur ses découvertes (ils ont rendu les prédictions AlphaFold librement disponibles), mais la tendance à se montrer est toujours dominante dans le domaine.
DeepMind tente d’inverser une tendance néfaste en construisant un modèle à la fois meilleur et plus petit. Mais étant donné que Chinchilla est encore un énorme modèle, nous devons réaliser à quel point nous sommes loin de la possibilité de démocratiser une technologie qui redéfinira notre avenir. Si nous continuons à aller dans une direction dans laquelle quelques-uns contrôlent les ressources de la recherche scientifique, l’orientation de la recherche et les percées qui en résultent, la création de l’IAG n’en vaudra pas la peine.
Vérification des données
Les modèles actuels sont sous-entraînés (ou surdimensionnés). Pour créer des modèles de calcul optimaux, les entreprises auront besoin d’ensembles de données plus volumineux que ce qu’elles peuvent actuellement utiliser. Les ensembles de données textuelles de grande taille et de haute qualité seront très demandés dans un proche avenir.
Emily M. Bender, professeur de linguistique à l’Université de Washington, a critiqué l’approche de Google en matière de PaLM, car les jetons 780 B (la quantité de données qu’ils ont utilisée pour former le modèle) sont trop importants pour être bien documentés, ce qui rend le modèle « trop volumineux ». pour se déployer en toute sécurité. Chinchilla a été formé sur deux fois plus de jetons. Si nous extrapolons les critiques de Bender (qui dépendraient du processus suivi par DeepMind pour former le modèle), nous pouvons conclure que Chinchilla n’est pas non plus suffisamment sûr pour être déployé.
Pour rendre les modèles meilleurs tout en étant plus petits, ils ont besoin de plus de données. Mais l’utilisation de plus de données rend les modèles moins sûrs. Nous avons un choix difficile entre rendre les modèles plus grands (c’est-à-dire qu’ils deviennent de plus en plus hors de portée pour la plupart des acteurs sur le terrain et en même temps leur empreinte carbone augmente) ou les former sur plus de jetons (c’est-à-dire rendre les audits de données plus difficiles et les modèles moins sûrs ). Dire que Chinchilla est meilleur dans l’ensemble parce qu’il est plus petit semble maintenant une déclaration farfelue.
L’alternative peut toujours être de se concentrer davantage sur d’autres axes de recherche qui n’incluent pas la formation d’énormes modèles avec d’énormes ensembles de données. Cependant, comme la Big Tech a l’argent pour financer les axes de recherche qu’elle souhaite, seules celles-ci fournissent des résultats – non pas parce que d’autres axes ne fonctionneront pas, mais parce qu’ils ne sont pas bien explorés.
Biais inhérent
Il semble que peu importe à quel point les chercheurs optimisent les modèles en termes de performances ou d’efficacité, ils ne semblent pas pouvoir atteindre des niveaux acceptables de biais et de toxicité. Les grands modèles de langage basés sur des transformateurs peuvent être intrinsèquement soumis à ces problèmes, quelle que soit la taille du modèle, la taille de l’ensemble de données, la qualité des hyperparamètres, le budget de calcul, etc.
Nous ne résoudrons pas les problèmes éthiques des modèles linguistiques simplement en les améliorant au niveau des performances.