Chinchilla IA

Chinchilla AI est un modèle de langage développé par l’équipe de recherche de DeepMind qui a été publié en mars 2022. Selon un article d’Eray Eliaçık dans Dataconomy le 12 janvier 2023, [1]Chinchilla AI est encore un autre exemple de modèle de langage AI, censé surpasser GPT-3. Dans cet article, l’auteur explique que l’IA Chinchilla est un choix populaire pour un grand modèle de langage, et qu’elle s’est avérée supérieure à ses concurrents. Par rapport à GPT-3 (175 paramètres), Jurassic-1 (178B paramètres), Gopher (280B paramètres) et Megatron-Turing NLG (530B paramètres), le principal argument de vente de Chinchilla AI est qu’il peut être créé pour le même prévu coût que Gopher, et pourtant il utilise moins de paramètres avec plus de données pour fournir, en moyenne, des résultats 7% plus précis que Gopher.

Chinchilla surpasse Gopher (280B), GPT-3 (175B), Jurassic-1 (178B) et Megatron-Turing NLG (530B) sur un large éventail de tâches d’évaluation en aval. Il simplifie considérablement l’utilisation en aval car il nécessite beaucoup moins de puissance informatique pour l’inférence et le réglage fin. L’article explique également que sur la base de la formation des modèles de langage précédemment utilisés, il a été déterminé que si l’on double la taille du modèle, on doit également avoir le double du nombre de jetons de formation. Cette hypothèse a été utilisée pour former Chinchilla AI par DeepMind. Semblable à Gopher en termes de coût, Chinchilla AI a des paramètres 70B et quatre fois plus de données.

Chinchilla AI a une précision moyenne de 67,5 % sur le benchmark MMLU, soit 7 % de plus que les performances de Gopher. Malheureusement, le grand public ne peut actuellement pas utiliser Chinchilla AI, car il est encore en phase de test depuis le 12 janvier 2023. Une fois publié, Chinchilla AI sera utile pour développer divers outils d’intelligence artificielle, tels que des chatbots, des assistants virtuels et des outils prédictifs. des modèles.

Dans l’ensemble, cette recherche contribue à développer un paradigme de formation efficace pour les grands modèles de langage auto-régressifs avec des ressources de calcul limitées. L’équipe Chinchilla recommande que le nombre de jetons d’entraînement soit doublé pour chaque doublement de la taille du modèle, ce qui signifie que l’utilisation d’ensembles de données d’entraînement plus grands et de meilleure qualité peut conduire à de meilleurs résultats sur les tâches en aval. [2] [3]

Références

Retour en haut