MAGVIT

Découvrez MAGVIT : un nouveau transformateur vidéo génératif masqué pour répondre aux tâches de génération de vidéo AI

Les modèles d’intelligence artificielle sont récemment devenus très puissants en raison de l’augmentation de la taille des ensembles de données utilisés pour le processus de formation et de la puissance de calcul nécessaire pour exécuter les modèles. 

Cette augmentation des ressources et des capacités du modèle conduit généralement à une plus grande précision que les architectures plus petites. Les petits ensembles de données ont également un impact similaire sur les performances des réseaux de neurones, compte tenu de la petite taille de l’échantillon par rapport à la variance des données ou des échantillons de classe déséquilibrés.

Alors que les capacités et la précision du modèle augmentent, dans ces cas, les tâches effectuées sont limitées à très peu de tâches spécifiques (par exemple, la génération de contenu, l’inpainting d’image, l’outpainting d’image ou l’interpolation de trame). 

Un nouveau framework appelé MAsked Generative VIdeo Transformer,

MAGVIT (MAGVIT), comprenant dix tâches de génération différentes, a été proposé pour surmonter cette limitation.

Comme indiqué par les auteurs, MAGVIT a été développé pour traiter la prédiction de trame (FP), l’interpolation de trame (FI), la peinture centrale (OPC), la peinture verticale (OPV), la peinture horizontale (OPH), la peinture dynamique (OPD), la peinture centrale ( IPC) et Dynamic Inpainting (IPD), génération conditionnelle de classe (CG), prédiction de trame conditionnelle de classe (CFP).

L’aperçu du pipeline de l’architecture est présenté dans la figure ci-dessous.

Source : https://arxiv.org/pdf/2212.05199.pdf

En un mot, l’idée derrière le cadre proposé est de former un modèle basé sur un transformateur pour récupérer une image corrompue. La corruption est ici modélisée sous forme de jetons masqués, qui font référence à des parties de la trame d’entrée.

Plus précisément, MAGVIT modélise une vidéo comme une séquence de jetons visuels dans l’espace latent et apprend à prédire les jetons masqués avec BERT (Représentations d’encodeurs bidirectionnels de transformateurs), une approche d’apprentissage automatique basée sur les transformateurs conçue à l’origine pour le traitement du langage naturel (NLP).

Il y a deux modules principaux dans le cadre proposé. 

Tout d’abord, les intégrations vectorielles (ou jetons) sont produites par des encodeurs 3D à quantification vectorielle (VQ), qui quantifient et aplatissent la vidéo en une séquence de jetons discrets. 

Les couches convolutives 2D et 3D sont exploitées avec les couches de suréchantillonnage ou de sous-échantillonnage 2D et 3D pour tenir compte efficacement des dépendances spatiales et temporelles.

Le sous-échantillonnage est effectué par l’encodeur, tandis que le suréchantillonnage est mis en oeuvre dans le décodeur, dont le but est de reconstruire l’image représentée par le jeton vectoriel fourni par l’encodeur.

Deuxièmement, un schéma de modélisation de jetons masqués (MTM) est exploité pour la génération vidéo multitâche. 

Contrairement au MTM classique en synthèse image/vidéo, une méthode d’intégration est proposée pour modéliser une condition vidéo à l’aide d’un masque multivarié.

Le schéma de masquage multivarié facilite l’apprentissage pour les tâches de génération vidéo avec différentes conditions. 

Les conditions peuvent être une région spatiale pour l’inpainting/outpainting ou quelques images pour la prédiction/l’interpolation d’images.

La vidéo de sortie est générée en fonction du jeton de conditionnement masqué, affiné à chaque étape après l’exécution de la prédiction.

Sur la base d’expériences rapportées, les auteurs de cette recherche affirment que l’architecture proposée établit la FVD (Fréchet Video Distance) la mieux publiée sur trois benchmarks de génération vidéo. 

De plus, selon leurs résultats, MAGVIT surpasse les méthodes existantes en temps d’inférence de deux ordres de grandeur contre les modèles de diffusion et de 60× contre les modèles autorégressifs.

Enfin, un modèle MAGVIT unique a été développé pour prendre en charge dix tâches de génération diverses et généraliser sur des vidéos de différents domaines visuels.

Dans la figure ci-dessous, certains résultats sont rapportés concernant la génération d’échantillons de conditionnement de classe par rapport aux approches de l’état de l’art. Pour les autres tâches, veuillez vous référer au papier.

Source : https://arxiv.org/pdf/2212.05199.pdf

C’était le résumé de MAGVIT, un nouveau cadre d’IA pour traiter conjointement diverses tâches de génération vidéo. Si vous êtes intéressé, vous pouvez trouver plus d’informations dans les liens ci-dessous.

Retour en haut