Chinchilla surpasse Gopher (280B), GPT-3 (175B), Jurassic-1 (178B) et Megatron-Turing NLG (530B) sur un large éventail de tâches d’évaluation en aval. Il simplifie considérablement l’utilisation en aval car il nécessite beaucoup moins de puissance informatique pour l’inférence et le réglage fin. L’article explique également que sur la base de la formation des modèles de langage précédemment utilisés, il a été déterminé que si l’on double la taille du modèle, on doit également avoir le double du nombre de jetons de formation. Cette hypothèse a été utilisée pour former Chinchilla AI par DeepMind. Semblable à Gopher en termes de coût, Chinchilla AI a des paramètres 70B et quatre fois plus de données.
Chinchilla AI a une précision moyenne de 67,5 % sur le benchmark MMLU, soit 7 % de plus que les performances de Gopher. Malheureusement, le grand public ne peut actuellement pas utiliser Chinchilla AI, car il est encore en phase de test depuis le 12 janvier 2023. Une fois publié, Chinchilla AI sera utile pour développer divers outils d’intelligence artificielle, tels que des chatbots, des assistants virtuels et des outils prédictifs. des modèles.
Dans l’ensemble, cette recherche contribue à développer un paradigme de formation efficace pour les grands modèles de langage auto-régressifs avec des ressources de calcul limitées. L’équipe Chinchilla recommande que le nombre de jetons d’entraînement soit doublé pour chaque doublement de la taille du modèle, ce qui signifie que l’utilisation d’ensembles de données d’entraînement plus grands et de meilleure qualité peut conduire à de meilleurs résultats sur les tâches en aval. [2] [3]
Références
- ^ Eray Eliaçık, « Chinchilla AI arrive pour le trône du GPT-3 », Dataconomy, 12 janvier 2023
- ^ G. Chaithali, « Découvrez le nouveau modèle de langage de DeepMind, Chinchilla (paramètres 70B), qui surpasse de manière significative Gopher (280B) et GPT-3 (175B) sur une large gamme de tâches d’évaluation en aval », Marktechpost, 9 avril 2022
- ^ Kartik Wali, « DeepMind lance son rival GPT-3, Chinchilla », Analytics India Magazine, 12 AVRIL 2022