J’ai dépensé 15 € en crédits DALL·E 2 pour créer cette image IA, et voici ce que j’ai appris
Oui, c’est un lama qui trempe un ballon de basket. Un résumé du processus, des limites et des leçons apprises lors de l’expérimentation de la version bêta fermée de DALL·E 2.

Je meurs d’envie d’essayer DALL·E 2 depuis que j’ai vu pour la première fois cette image générée artificiellement d’une « Shiba Inu Bento Box ».
Wow – maintenant c’est une technologie perturbatrice.
Pour ceux d’entre vous qui ne sont pas familiers, DALL·E 2 est un système créé par OpenAI qui peut générer des images originales à partir de texte .
Il est actuellement en version bêta fermée – je me suis inscrit sur la liste d’attente début mai et j’ai eu accès fin juillet. Pendant la version bêta, les utilisateurs reçoivent des crédits (50 crédits gratuits le premier mois, 15 crédits tous les mois par la suite) où chaque utilisation coûte 1 crédit et chaque utilisation génère 3 à 4 images. Vous pouvez également acheter 115 crédits pour 15 USD.
PS Si vous avez hâte de l’essayer, essayez DALL·E mini gratuitement. Cependant, la qualité de ses images est généralement plus médiocre (donnant lieu à une foule de mèmes DALL·E ) et prend environ 60 secondes par invite (DALL·E 2 en comparaison ne prend que 5 secondes environ).
Vous avez probablement vu en ligne diverses images triées sur le volet montrant de quoi DALL·E 2 est capable (à condition d’avoir la bonne invite créative). Dans cet article, je partage une présentation franche de ce qu’il faut pour créer une image utilisable à partir de zéro pour le sujet : « un lama jouant au basket ». Vous pourriez le trouver utile si vous envisagez d’essayer DALL·E 2 vous-même, ou si vous souhaitez simplement comprendre de quoi il est capable.
Le point de départ
Il y a à la fois un art et une science à savoir à quelle invite nourrir DALL·E 2. Pour illustrer, voici les résultats pour « lama jouant au basket » :

Pourquoi DALL·E 2 a-t-il tendance à générer des images de dessins animés pour cette invite ? Je suppose que cela a quelque chose à voir avec le manque d’images réelles d’un lama jouant au basket vues pendant l’entraînement.
J’ai tenté d’aller plus loin en ajoutant le terme clé ‘ photo réaliste de ‘ :

Ce lama a l’air plus photoréaliste, mais l’image entière commence à ressembler à un travail Photoshop bâclé. Dans ce cas, DALL·E 2 avait clairement besoin d’être tenu en main pour créer une scène cohérente.
Ingénierie rapide, c’est-à-dire l’art de spécifier exactement ce que vous voulez
Dans le contexte de DALL·E, l’ingénierie des invites fait référence au processus de conception d’invites pour vous donner les résultats souhaités.
Le DALL·E 2 Prompt Book est une ressource fantastique pour cela. Il contient une liste détaillée d’inspirations pour les invites utilisant des mots-clés de la photographie et de l’art.
Pourquoi quelque chose comme ça est-il nécessaire ? Parce qu’obtenir une sortie utilisable de DALL·E 2 est délicat (surtout quand vous n’êtes pas sûr de ce que DALL·E 2 est capable de faire). À tel point qu’une nouvelle startup crée un marché facturant 1,99 $ pour les invites afin de vous faire gagner du temps et de l’argent pour créer le vôtre.
Ma trouvaille préférée est le « rétroéclairage dramatique » :

Il est important de dire exactement à DALL·E 2 ce que vous voulez. Apparemment, il n’est pas évident d’après le contexte que ce lama doive être habillé pour l’occasion. DALL·E 2 fait un excellent travail en réalisant cette scène fantastique cependant, lorsque ‘ lama portant un maillot ‘ est spécifié :

Cela ne s’arrête pas là. Pour ajouter un peu de drame à l’image et vraiment faire voler ce lama, j’avais besoin de spécifier des phrases telles que » tremper un ballon de basket « , » photo d’action de… « , ou ma préférée personnelle : « … lama en maillot plongeant un ballon de basket comme Michael Jordan ” :

Astuce : DALL·E 2 ne stocke que les 50 générations précédentes dans votre onglet historique. Assurez-vous de sauvegarder vos images préférées au fur et à mesure.
Vous l’avez peut-être remarqué : DALL·E 2 n’est pas très bon en composition.
On pourrait penser que dans le contexte de « plonger un ballon de basket », il serait évident où les positions relatives du lama, du ballon et du cerceau devraient être. Le plus souvent, le lama plonge dans le mauvais sens, ou la balle est positionnée de telle manière que le lama n’a aucun espoir réel de tirer. Bien que tous les éléments de l’invite soient là, DALL·E 2 ne « comprend » pas vraiment la relation entre eux. Cet article couvre le sujet plus en profondeur .

Un autre artefact de DALL·E 2 qui ne « comprend » pas vraiment la scène est le mélange occasionnel de textures. Dans l’image ci-dessous, le filet est fait de fourrure (une scène morbide quand on y pense) :

DALL·E 2 a du mal à générer des visages réalistes
Selon certaines sources , il pourrait s’agir d’une tentative délibérée d’éviter de générer des deepfakes. Je pensais que cela ne s’appliquerait qu’aux sujets humains, mais apparemment, cela s’applique aussi aux lamas.
Certains des résultats étaient carrément effrayants.

Quelques autres limitations de DALL·E 2
Voici quelques autres problèmes mineurs que j’ai rencontrés :
Les angles et les plans sont interprétés de manière lâche
Peu importe le nombre de variantes de ‘ au loin ‘ ou ‘ extrême long shot ‘ que j’utilisais, il était difficile de trouver des images où le lama entier tenait dans le cadre.
Dans certains cas, le cadrage a été entièrement ignoré :

DALL·E 2 ne sait pas épeler
Je suppose que cela ne devrait pas être trop surprenant étant donné que DALL·E 2 a du mal à « comprendre » la relation entre les composants. Il est cependant capable de tenter des lettres entièrement formées dans le bon contexte :

DALL·E 2 peut être capricieux avec des invites complexes ou mal formulées
Parfois, l’ajout de mots-clés ou la formulation de l’invite de certaines manières conduisait à des résultats complètement différents de ce qui était attendu.
Dans ce cas, le véritable sujet de l’invite (lama portant un maillot) a été complètement ignoré :

Même l’ajout du terme « moelleux » a conduit à des performances considérablement dégradées et à de nombreux cas où il semblait que DALL·E 2 venait de… tomber en panne :

En travaillant avec DALL·E 2, il est important d’être précis sur ce que vous voulez sans surcharger ni ajouter de mots redondants.
La capacité de DALL·E 2 à transférer des styles est impressionnante
Vous devez essayer ceci!
Une fois que vous avez votre sujet de mot-clé, vous pouvez générer l’image dans un nombre impressionnant d’autres styles artistiques.
‘Peinture abstraite de….’

« Ils t’ont battu »

‘Art numérique’

« Captures d’écran du film d’animation Miyazaki »

Dernières pensées
Après plus de 100 crédits (~13 USD) et de nombreux essais et erreurs, voici mon image finale :

L’image n’est pas parfaite, mais DALL·E 2 a réussi à remplir environ 80 % du brief.
La plupart des crédits sont allés à essayer d’obtenir la bonne combinaison de style, de visages et de composition pour travailler ensemble.
Selon l’annonce DALL·E d’OpenAI ,
« … les utilisateurs obtiennent tous les droits d’utilisation pour commercialiser les images qu’ils créent avec DALL·E, y compris le droit de réimprimer, de vendre et de commercialiser. »
Attendez-vous à ce que de nombreux utilisateurs jouent vite et librement avec ces règles.
En tant que créateur de contenu, DALL·E 2 sera particulièrement utile pour créer des illustrations simples, des photos et des graphiques pour les blogs et les sites Web. Je l’utiliserai comme alternative à Unsplash pour créer des images de couverture de blog qui ne ressembleront pas à celles des autres.
Si vous êtes sur le point d’essayer DALL·E 2 vous-même, voici quelques conseils avant de commencer :
- Consultez le livre d’ invite DALL·E 2 ! (Aussi, la feuille d’ingénierie rapide faite par les fans ).
- Soyez prêt à faire des essais et des erreurs pour obtenir ce que vous voulez. Quinze crédits gratuits peuvent sembler beaucoup, mais ce n’est vraiment pas le cas. Attendez-vous à utiliser au moins 15 crédits pour générer une image utilisable. DALL·E 2 n’est pas bon marché.
- N’oubliez pas de sauvegarder vos images préférées au fur et à mesure.
Merci d’avoir lu! J’aimerais connaître votre expérience avec DALL·E 2 et je serais ravi de recevoir vos commentaires ou suggestions.
Si vous avez aimé lire ceci, voici quelques articles d’autres écrivains qui pourraient également vous plaire :
- Comment j’ai utilisé DALL-E 2 pour générer le logo pour OctoSQL par Jacob Martins
- Comment j’ai utilisé l’IA pour réinventer 10 peintures de paysages célèbres d’Alberto Romero
- Ce que DALL-E 2 peut et ne peut pas faire par Swimmer963
Publié à l’origine dans ‘ Vers l’IA ‘.