DreamBooth : affiner les modèles de diffusion texte-image pour la génération axée sur le sujet
C’est comme un photomaton, mais une fois le sujet capturé, il peut être synthétisé là où vos rêves vous mènent…
Qu’est ce que DreamBooth
DreamBooth est un modèle de génération d’apprentissage en profondeur utilisé pour affiner les modèles texte-image existants , développé par des chercheurs de Google Research et de l’Université de Boston en 2022. Développé à l’origine à l’aide du modèle texte-image Imagen de Google, les implémentations DreamBooth peuvent être appliquées à d’autres modèles de texte en image, où il peut permettre au modèle de générer des sorties plus précises et personnalisées après une formation sur trois à cinq images d’un sujet.
Technologie
a photograph of a [Nissan R34 GTR] car
, aveccar
étant la classe); une perte de préservation préalable spécifique à la classe est appliquée pour encourager le modèle à générer diverses instances du sujet en fonction de ce sur quoi le modèle est déjà formé pour la classe d’origine. [1] Des paires d’images basse résolution et haute résolution tirées de l’ensemble d’images d’entrée sont utilisées pour affiner les composants de super résolution , permettant de conserver les moindres détails du sujet. [1]
Usage
Résumé
Les grands modèles texte-image ont réalisé un bond remarquable dans l’évolution de l’IA, permettant une synthèse d’images diversifiée et de haute qualité à partir d’une invite de texte donnée. Cependant, ces modèles n’ont pas la capacité d’imiter l’apparence des sujets dans un ensemble de référence donné et d’en synthétiser de nouvelles interprétations dans différents contextes. Dans ce travail, nous présentons une nouvelle approche de « personnalisation » des modèles de diffusion texte-image (en les spécialisant aux besoins des utilisateurs). Étant donné en entrée seulement quelques images d’un sujet, nous affinons un modèle texte-image pré-formé (Imagen, bien que notre méthode ne soit pas limitée à un modèle spécifique) de sorte qu’il apprenne à lier un identifiant unique avec ce sujet spécifique . Une fois le sujet intégré dans le domaine de sortie du modèle, l’identifiant unique peut ensuite être utilisé pour synthétiser des images photoréalistes entièrement nouvelles du sujet contextualisé dans différentes scènes. En tirant parti de l’a priori sémantique intégré dans le modèle avec une nouvelle perte de préservation a priori spécifique à la classe autogène, notre technique permet de synthétiser le sujet dans diverses scènes, poses, vues et conditions d’éclairage qui n’apparaissent pas dans les images de référence. Nous appliquons notre technique à plusieurs tâches auparavant inattaquables, notamment la recontextualisation du sujet, la synthèse de vues guidée par le texte, la modification de l’apparence et le rendu artistique (tout en préservant les caractéristiques clés du sujet). notre technique permet de synthétiser le sujet dans diverses scènes, poses, vues et conditions d’éclairage qui n’apparaissent pas dans les images de référence. Nous appliquons notre technique à plusieurs tâches auparavant inattaquables, notamment la recontextualisation du sujet, la synthèse de vues guidée par le texte, la modification de l’apparence et le rendu artistique (tout en préservant les caractéristiques clés du sujet). notre technique permet de synthétiser le sujet dans diverses scènes, poses, vues et conditions d’éclairage qui n’apparaissent pas dans les images de référence. Nous appliquons notre technique à plusieurs tâches auparavant inattaquables, notamment la recontextualisation du sujet, la synthèse de vues guidée par le texte, la modification de l’apparence et le rendu artistique (tout en préservant les caractéristiques clés du sujet).
Fond
Étant donné un sujet particulier tel que l’horloge (montré dans les images réelles à gauche), il est très difficile de le générer dans différents contextes avec des modèles texte-image de pointe, tout en conservant une haute fidélité à sa clé caractéristiques visuelles. Même avec des dizaines d’itérations sur une invite de texte contenant une description détaillée de l’apparence de l’horloge ( « réveil jaune de style rétro avec un cadran blanc et un numéro trois jaune sur la partie droite du cadran dans la jungle »), le modèle Imagen [Saharia et al., 2022] ne parvient pas à reconstituer ses principales caractéristiques visuelles (troisième colonne). De plus, même les modèles dont l’incorporation de texte se situe dans un espace de vision du langage partagé et peuvent créer des variations sémantiques de l’image, comme DALL-E2 [Ramesh et al., 2022], ne peuvent ni reconstruire l’apparence du sujet donné ni modifier le contexte (deuxième colonne). En revanche, notre approche (à droite) permet de synthétiser l’horloge avec une grande fidélité et dans de nouveaux contextes ( « une horloge [V] dans la jungle » ).
Approcher
Notre méthode prend en entrée quelques images (généralement 3 à 5 images suffisent, d’après nos expériences) d’un sujet (par exemple, un chien spécifique) et le nom de la classe correspondante (par exemple « chien »), et renvoie une image affinée/ Modèle texte-image « personnalisé » qui encode un identifiant unique qui fait référence au sujet. Ensuite, lors de l’inférence, nous pouvons implanter l’identifiant unique dans différentes phrases pour synthétiser les sujets dans différents contextes.
Étant donné ~ 3-5 images d’un sujet, nous affinons une diffusion texte-image en deux étapes : (a) affiner le modèle texte-image basse résolution avec les images d’entrée associées à une invite de texte contenant un unique identifiant et le nom de la classe à laquelle appartient le sujet (par exemple, « Une photo d’un chien [T] »), en parallèle, nous appliquons une perte de préservation a priori spécifique à la classe, qui exploite la sémantique a priori que le modèle a sur le classe et l’encourage à générer diverses instances appartenant à la classe du sujet en injectant le nom de la classe dans l’invite de texte (par exemple, « Une photo d’un chien »). (b) affiner les composants de super résolution avec des paires d’images basse résolution et haute résolution tirées de notre ensemble d’images d’entrée, ce qui nous permet de maintenir une haute fidélité aux petits détails du sujet.
Résultats
Résultats pour la recontextualisation d’instances de sujet de sac et de vase. En affinant un modèle à l’aide de notre méthode, nous sommes en mesure de générer différentes images d’une instance de sujet dans différents environnements, avec une préservation élevée des détails du sujet et une interaction réaliste entre la scène et le sujet. Nous affichons les invites de conditionnement sous chaque image.
Rendu artistique
Représentations artistiques originales de notre sujet chien dans le style de peintres célèbres. Nous remarquons que de nombreuses poses générées n’ont pas été vues dans l’ensemble d’entraînement, comme l’interprétation de Van Gogh et Warhol. Nous notons également que certaines interprétations semblent avoir une composition nouvelle et imitent fidèlement le style du peintre – suggérant même une sorte de créativité (extrapolation compte tenu des connaissances antérieures).
Synthèse de vue guidée par texte
Notre technique peut synthétiser des images avec des points de vue spécifiés pour un chat sujet (de gauche à droite : vues de dessus, de dessous, de côté et de dos). Notez que les poses générées sont différentes des poses d’entrée et que l’arrière-plan change de manière réaliste en cas de changement de pose. Nous soulignons également la préservation des motifs de fourrure complexes sur le front du chat sujet.
Modification de propriété
Nous montrons les modifications de couleur dans la première rangée (en utilisant les invites « a [color] [V] car »), et les croisements entre un chien spécifique et différents animaux dans la deuxième rangée (en utilisant les invites « a cross of a [V] chien et une [espèce cible] »). Nous soulignons le fait que notre méthode préserve les caractéristiques visuelles uniques qui donnent au sujet son identité ou son essence, tout en effectuant la modification de propriété requise.
Accessoirisation
Équiper un chien d’accessoires. L’identité du sujet est préservée et de nombreuses tenues ou accessoires différents peuvent être appliqués au chien étant donné une invite de type « un chien [V] portant une tenue de police/chef/sorcière » . Nous observons une interaction réaliste entre le chien sujet et les tenues ou accessoires, ainsi qu’une grande variété d’options possibles.
Impact sociétal
Ce projet vise à fournir aux utilisateurs un outil efficace pour synthétiser des sujets personnels (animaux, objets) dans différents contextes. Alors que les modèles généraux de texte à image peuvent être biaisés vers des attributs spécifiques lors de la synthèse d’images à partir de texte, notre approche permet à l’utilisateur d’obtenir une meilleure reconstruction de ses sujets souhaitables. Au contraire, des parties malveillantes pourraient essayer d’utiliser ces images pour induire les téléspectateurs en erreur. Il s’agit d’un problème courant, existant dans d’autres approches de modèles génératifs ou techniques de manipulation de contenu. Les recherches futures sur la modélisation générative, et plus particulièrement sur les priors génératifs personnalisés, doivent continuer à étudier et à revalider ces préoccupations.
Liens externes
- DreamBooth sur GitHub.io
- DreamBooth sur la diffusion stable