bandes dessinées

Utiliser l’IA pour créer de nouvelles bandes dessinées sans écrire de code

Un tutoriel sur la façon d’utiliser GPT-3 et DALL-E pour générer du contenu original pour les pages amusantes

J’ai passé le mois dernier à explorer comment utiliser le générateur de texte GPT-3 d’OpenAI et leur système image-texte DALL-E pour créer de nouvelles bandes dessinées sans écrire de code source. Notez que les deux systèmes sont en version bêta, et après avoir utilisé tous mes jetons gratuits, ils ont commencé à facturer des frais nominaux pour l’utilisation. Mais les résultats sont plutôt bons ! Et OpenAI accorde aux utilisateurs le droit d’utiliser leur matériel généré à des fins commerciales.

Dans cet article, je vais fournir un petit aperçu de GPT-3 et DALL-E, expliquer comment j’ai utilisé ces systèmes pour créer des bandes dessinées et montrer les résultats. En cours de route, je soulignerai les nouvelles fonctionnalités de génération de texte dans GPT-3 et expliquerai comment j’ai contraint DALL-E à dessiner le même personnage avec différentes vues et poses.

Utilisation de GPT-3 pour créer des titres, des personnages et des scènes

J’ai déjà écrit sur la façon d’utiliser le générateur de texte GPT-3 d’OpenAI pour créer des légendes amusantes pour les mèmes. Avec ce projet, AI-Memer , j’ai appris que GPT-3 pouvait être amusant.

OpenAI a formé son réseau de neurones GPT-3 avec une quantité massive de texte provenant de livres et de pages Web, y compris du matériel comique. Voici la répartition des données d’entraînement de l’ article d’OpenAI :

Selon OpenAI , un « jeton » correspond à environ 3/4 d’un mot. En utilisant 500 mots par page, cela représente environ 750 millions de pages de texte.

Pour utiliser GPT-3, vous devez créer un compte ici . Après avoir créé le compte, OpenAI vous offre 18 USD de crédits que vous pouvez utiliser avant de commencer à vous facturer. Vous pouvez ensuite accéder au Playground, saisir une invite et générer un nouveau texte.

Nouvelle BD #1 – Mark Madness

Ma première étape dans la création de nouvelles bandes dessinées a été de générer un titre à partir d’un concept de thème. C’était facile à faire en utilisant l’interface utilisateur GPT-3. Tout ce que j’ai fait, c’est demander. J’ai entré « Créer des titres farfelus pour une bande dessinée humoristique sur les sports universitaires » et cliqué sur le bouton Soumettre . Notez que j’ai utilisé les paramètres par défaut pour le modèle, la température, etc. Ceux-ci ont bien fonctionné.

Le système a montré les résultats.

1. Les Benchwarmers 
2. Idiots intra -muros 
3. Out in Left Field 
4. One Hitter Wonders 
5. Bleacher Creatures 
6. The Walk-ons 
7. Touchdowns and Turnovers 
8. Les mascottes 
9. Mark Madness 
10. Shot Clock Shenanigans

J’ai aimé « Mark Madness », alors j’ai utilisé celui-là. Si aucun d’entre eux n’était bon, j’aurais pu appuyer sur le dernier bouton Annuler et Soumettre à nouveau pour en créer de nouveaux. GPT-3 a beaucoup d’idées.

Notez que les titres générés ne sont pas garantis comme étant uniques dans le monde réel. J’ai donc lancé une recherche rapide sur Google et je n’ai trouvé aucun résultat pour les bandes dessinées existantes nommées « Mark Madness ». Tout bon.

Créer des personnages avec GPT-3

Pour créer les personnages de la nouvelle bande dessinée, j’ai conçu cette invite : « Créez des personnages principaux pour une nouvelle bande dessinée sur les sports universitaires appelée Mark Madness ». et appuyez sur Soumettre. Voici les résultats, avec le texte généré en gras.

Créez des personnages principaux pour une nouvelle bande dessinée sur les sports universitaires intitulée "Mark Madness".1. Mark : Un basketteur universitaire talentueux mais sous-estimé qui rêve de se rendre en NBA. 
2. Jimmy Chitwood : le coéquipier talentueux mais égoïste de Mark qui semble toujours voler la vedette. 
3. Suzie Hurley : la petite amie de Mark et camarade de classe, qui essaie toujours de le faire se concentrer sur ses études. 
4. M. McNulty : le vieil entraîneur de basket-ball croustillant de Mark qui lui demande toujours de "jouer avec plus de passion". 
5. Dean Snyder : Le doyen du Mark's College, une institution universitaire très respectée qui est également connue pour son athlétisme de division I.

Ces personnages ont l’air pas mal. Par exemple, GPT3 a compris que le personnage principal devrait être un joueur de basket universitaire nommé Mark.

Mais notez qu’il ne semble pas y avoir beaucoup de diversité culturelle dans l’ensemble des personnages. Les créateurs de GPT-3 ont abordé la question des préjugés et du manque de représentation culturelle dans leur article .

Les biais présents dans les données de formation peuvent conduire les modèles à générer un contenu stéréotypé ou préjugé. Ceci est préoccupant, car le biais du modèle pourrait nuire aux personnes des groupes concernés de différentes manières en enracinant les stéréotypes existants et en produisant des représentations dégradantes parmi d’autres dommages potentiels. Nous avons mené une analyse des biais du modèle afin de mieux comprendre les limites du GPT-3 en matière d’équité, de biais et de représentation. — Tom Brown, et al., OpenAI

Ils discutent ensuite de leur analyse des préjugés et de la sous-représentation culturelle dans le modèle avec le sexe, la race et la religion.

Modification de texte avec des commandes

OpenAI lance une nouvelle fonctionnalité d’édition de texte dans GPT-3, actuellement en version bêta. Au lieu de simplement créer du texte en répondant aux invites, vous pouvez désormais utiliser le système pour modifier toute prose existante à l’aide de commandes de texte. Pour tester cela, j’ai utilisé la liste de personnages ci-dessus et demandé au système de « rendre les personnages plus diversifiés sur le plan culturel et ethnique ».

Voici les résultats.

1. Mark : Un basketteur universitaire talentueux mais sous-estimé qui rêve de se rendre en NBA. 
2. Enrique : le coéquipier talentueux mais égoïste de Mark qui semble toujours voler la vedette. 
3. Sandhya : la petite amie de Mark et camarade de classe, qui essaie toujours de le faire se concentrer sur ses études. 
4. M. McNulty : le vieil entraîneur de basket-ball croustillant de Mark qui lui demande toujours de "jouer avec plus de passion". 
5. Dean Wong : Le doyen du Mark's College, une institution universitaire très respectée qui est également connue pour ses sports de division I.

OK, il a changé certains noms, comme Jimmy en Enrique et Suzie en Sandhya, pour rendre les personnages plus diversifiés.

Création d’une scène

La dernière étape de la génération de texte consiste à demander à GPT-3 de créer une scène en fonction du titre et des personnages. Voici l’invite que j’ai utilisée avec le texte nouvellement généré en gras.

Créez une scène avec dialogue pour une bande dessinée sur un sport universitaire appelé "Mark Madness".PERSONNAGES : 
Mark : Un basketteur universitaire talentueux mais sous-estimé qui rêve d'atteindre la NBA. 
Enrique : le coéquipier talentueux mais égoïste de Mark qui semble toujours voler la vedette. 
Sandhya : la petite amie de Mark et camarade de classe, qui essaie toujours de le faire se concentrer sur ses études.CADRE : Le terrain de basket après un gros match.Mark : Wow, nous l'avons vraiment tué là-bas aujourd'hui !Enrique : Ouais, non grâce à toi. Tu as de la chance que j'étais là pour porter l'équipe.

C’était un beau dialogue. Ensuite, j’explique comment j’ai utilisé DALL-E pour rendre cette scène.

Utilisation de DALL-E pour dessiner une bande dessinée à partir de texte

Le mois dernier, j’ai écrit sur la façon d’utiliser le système de création d’images DALL-E d’OpenAI pour créer de l’art numérique. C’est un système payant actuellement en version bêta avec une inscription ici . Vous tapez une invite de texte et appuyez sur le bouton Générer, et 20 secondes plus tard, vous voyez quatre versions de l’image décrite dans votre invite. C’est assez facile à utiliser.

Marquez la folie

Pour la bande dessinée Mark Madness, j’ai utilisé cette invite : « Une bande dessinée se déroulant sur un terrain de basket avec deux personnages portant un uniforme rouge, Mark, un talentueux basketteur universitaire, et Enrique, un coéquipier égoïste. » Voici les quatre images créées par DALL-E.

J’ai aimé le second, mais j’avais besoin de le nettoyer un peu dans Photoshop. Et j’ai ajouté le titre et la boîte de dialogue générés par GPT-3, en remplaçant le texte charabia dans les bulles de mots. Voici les images avant et après.

C’est un peu comme l’un de ces puzzles visuels où vous devez trouver les dix différences. Saurez-vous tous les repérer ? 🙂

J’aime l’aspect général de la bande dessinée, avec quelques jolis détails comme la barre verticale rouge qui correspond à la couleur de l’équipe. Les yeux des personnages, cependant, ne correspondent pas du tout. J’ai utilisé une petite astuce dans Photoshop pour reproduire l’œil droit de Mark et l’œil gauche d’Enrique. J’ai utilisé la police Comic Sans pour le dialogue, bien sûr.

Nouvelle BD #2 – Un concert à la fois

J’ai utilisé le même processus pour créer le titre, les descriptions des personnages et la scène d’une deuxième bande dessinée à l’aide de GPT-3. Cette fois, j’ai commencé avec l’invite « Créez des titres farfelus pour une bande dessinée humoristique sur un groupe de garage ». Le meilleur titre du lot était One Gig at a Time. Après avoir généré le texte des personnages, j’ai utilisé cette invite pour générer des images : « Une bande dessinée avec trois musiciens, Clive à la guitare, Jemma à la basse et Raj au piano électrique. »

Voici les résultats.

Cette fois, la première image semble être la meilleure. Voici à quoi cela ressemble avant et après l’avoir nettoyé et ajouté des titres dans Photoshop.

J’ai repris le look noir audacieux de la conception initiale. J’ai dû presser un peu l’image pour faire de la place au titre en haut. Peu de nettoyage était nécessaire, mais j’ai ajouté le flux de notes de musique dans Photoshop.

Nouvelle BD #3 – ML Mayhem

Pour celui-ci, je voulais voir si je pouvais créer une bande dessinée à trois panneaux. J’ai commencé avec cette invite pour GPT-3, « Créez des titres farfelus pour une nouvelle bande dessinée technique. »

Il en a trouvé de bons.

1. "ML Mayhem" 
2. "G33k5 Uprising" 
3. "Coding Crazy" 
4. "Cyber ​​security Shenanigans" 
5. "The Great Cloud Catastrophe"

Création de personnages pour ML Mayhem

J’ai aimé ML Mayhem, mais je l’ai stylisé comme ML Mayhem. J’ai ensuite demandé à GPT-3 de créer les personnages principaux. Le texte généré est en gras.

Créez des personnages principaux pour une nouvelle bande dessinée technique appelée "ML Mayhem"1 . Millie est une jeune codeuse brillante qui passe ses journées à créer de nouvelles façons de faciliter la vie de ses amis et de sa famille.2. Lily Nguyen est la meilleure amie et la plus proche confidente de Millie. Elle est toujours là pour offrir une oreille attentive.3. Mayhem est le nom du système d'IA extrêmement puissant que Millie a accidentellement créé. Il a son propre esprit et fait toujours des ravages pour Millie et Lily.

OK, je vois ce qu’il a fait là. Le nom de la bande est ML Mayhem, il a donc nommé les principaux protagonistes Milly et Lily. Hein, M et L. Très intelligent ! Et le nom du système d’IA qui fait des ravages s’appelle Mayhem. Propre et net.

Création de scènes pour trois panneaux

Ensuite, j’ai demandé à GPT-3 de générer les scènes et les dialogues pour trois panneaux.

Créez une scène et un dialogue pour une bande dessinée technique à trois panneaux appelée "ML Mayhem".PERSONNAGES : 
Millie est une jeune codeuse brillante qui passe ses journées à créer de nouvelles façons de faciliter la vie de ses amis et de sa famille.Lily Nguyen est la meilleure amie et la plus proche confidente de Millie. Elle est toujours là pour offrir une oreille attentive.Mayhem est le nom du système d'IA extrêmement puissant que Millie a créé accidentellement. Il a son propre esprit et fait toujours des ravages pour Millie et Lily.SCÈNE 1 : Millie est assise devant son ordinateur, ses doigts volent sur le clavier pendant qu'elle code.MILLIE : J'ai presque terminé mon dernier projet. J'ai hâte de montrer Lily !SCÈNE PANEL 2 : Lily est assise sur le canapé, lisant un livre.LILY : J'ai hâte de voir sur quoi Millie a travaillé. Elle est si brillante !PANNEAU 3 SCÈNE : L'écran de l'ordinateur de Millie clignote en rouge et un message d'erreur s'affiche.MILLIE : Oh non ! Qu'est-ce que j'ai fait?

Création de l’illustration pour une bande dessinée multi-panneaux

Pour cette tâche, j’ai vraiment étiré les capacités de DALL-E. Les deux bandes dessinées précédentes n’avaient qu’un seul panneau, mais je dois créer trois panneaux pour celui-ci et avoir un look cohérent pour les personnages.

Voici les trois invites que j’ai utilisées pour créer les images de base.

Panel 1 : "Une bande dessinée technique où Millie, une brillante jeune codeuse, est assise devant son ordinateur en train de taper."Panel 2 : "Une bande dessinée technique où Lily Nguyen est assise sur le canapé, lisant un livre."Panel 3 : "Une comique technophile, Millie, une étudiante aux cheveux roux et en chemise verte, travaille sur son ordinateur, l'écran affiche un message d'erreur, et son amie Lily Nguyen, vêtue d'une chemise noire et d'un pantalon de survêtement bleu, est regarder avec horreur."

Notez que j’ai dû modifier un peu les invites pour essayer d’obtenir un certain niveau de cohérence visuelle pour les personnages. DALL-E a généré quatre versions d’images pour chacune des trois invites, et voici les meilleures.

En général, ceux-ci étaient plutôt bons. Mais, en plus du texte charabia, il y avait un problème majeur de cohérence visuelle dans le troisième panneau ; DALL-E ne savait pas exactement à quoi les personnages étaient censés ressembler. Il a juste fait du mieux qu’il pouvait, compte tenu des invites.

Création d’une étude de personnage

Pour rendre les personnages entièrement réalisés, j’ai d’abord retouché l’image dans Photoshop puis créé un modèle avec une grille 3×2 et le rendu de Millie en haut à gauche. J’ai laissé cinq des six panneaux transparents. La taille du modèle était de 1024×1024, la résolution de travail de DALL-E.

J’ai ensuite téléchargé le modèle dans DALL-E et modifié l’image à l’aide de l’invite : « Une étude de personnage pour une bande dessinée de Millie, une brillante jeune étudiante et codeuse, la montrant de côté et de face dans six poses différentes. » Voici les résultats.

Apparemment, DALL-E sait ce qu’est une étude de personnage et a fait un assez bon travail pour rendre notre protagoniste dans différentes poses.

Pour créer le panneau final de la bande, j’ai choisi l’une des poses et l’ai collée dans Photoshop avec une partie d’une image de Lily sur un fond transparent. J’ai effacé des parties de leurs visages pour voir si DALL-E pouvait remplir leurs expressions à l’invite : « Une bande dessinée technique avec Millie, une étudiante travaillant sur son ordinateur, l’écran affichant un message d’erreur désastreux et son amie Lily Nguyen regardant dans l’horreur. » Voici les résultats.

Le système a fait du bon travail en remplissant les détails, comme les mains de Millie tapant sur son clavier et lui donnant une configuration à deux moniteurs.

Voici à quoi ressemble la bande dessinée finale à trois panneaux après un peu plus de nettoyage dans Photoshop, ainsi que la boîte de dialogue de GPT-3 dans les bulles de mots.

Dernières pensées

En comparant les deux systèmes, j’ai trouvé que GPT-3 fait un bien meilleur travail pour générer le texte que DALL-E pour l’illustration. Bien que les images initiales des bandes dessinées semblent correctes en tant que rendus conceptuels, elles ont besoin d’un nettoyage pour être utilisées dans la production. Mais le principal problème est que DALL-E ne génère pas de personnages de manière cohérente pour la bande dessinée. La principale limitation provient de la taille d’image 1024×1024 dans DALL-E. Notez qu’OpenAI a récemment ajouté une nouvelle fonctionnalité « outpainting » pour ajouter plus facilement aux images générées. Cependant, la nouvelle fonctionnalité ne fonctionne que de manière fragmentaire. Il ne prend en compte qu’un cadre 1024×1024 pour la génération d’images. Le système aurait besoin d’une fonctionnalité de « téléchargement de cadres de référence » pour générer des éléments visuels de manière cohérente, comme des personnages de bandes dessinées.

Retour en haut