DALL·E 2

J’ai dépensé 15 € en crédits DALL·E 2 pour créer cette image IA, et voici ce que j’ai appris

Oui, c’est un lama qui trempe un ballon de basket. Un résumé du processus, des limites et des leçons apprises lors de l’expérimentation de la version bêta fermée de DALL·E 2.

Lama jouant au basket, généré avec DALL·E 2 par l’auteur.

Je meurs d’envie d’essayer DALL·E 2 depuis que j’ai vu pour la première fois cette image générée artificiellement d’une « Shiba Inu Bento Box ».

Wow – maintenant c’est une technologie perturbatrice.

Pour ceux d’entre vous qui ne sont pas familiers, DALL·E 2 est un système créé par OpenAI qui peut générer des images originales à partir de texte .

Il est actuellement en version bêta fermée – je me suis inscrit sur la liste d’attente début mai et j’ai eu accès fin juillet. Pendant la version bêta, les utilisateurs reçoivent des crédits (50 crédits gratuits le premier mois, 15 crédits tous les mois par la suite) où chaque utilisation coûte 1 crédit et chaque utilisation génère 3 à 4 images. Vous pouvez également acheter 115 crédits pour 15 USD.

PS Si vous avez hâte de l’essayer, essayez DALL·E mini gratuitement. Cependant, la qualité de ses images est généralement plus médiocre (donnant lieu à une foule de mèmes DALL·E ) et prend environ 60 secondes par invite (DALL·E 2 en comparaison ne prend que 5 secondes environ).

Vous avez probablement vu en ligne diverses images triées sur le volet montrant de quoi DALL·E 2 est capable (à condition d’avoir la bonne invite créative). Dans cet article, je partage une présentation franche de ce qu’il faut pour créer une image utilisable à partir de zéro pour le sujet : « un lama jouant au basket ». Vous pourriez le trouver utile si vous envisagez d’essayer DALL·E 2 vous-même, ou si vous souhaitez simplement comprendre de quoi il est capable.

Le point de départ

Il y a à la fois un art et une science à savoir à quelle invite nourrir DALL·E 2. Pour illustrer, voici les résultats pour « lama jouant au basket » :

Images générées par l’auteur à l’aide de DALL·E 2 avec l’invite « Lama jouant au basket ».

Pourquoi DALL·E 2 a-t-il tendance à générer des images de dessins animés pour cette invite ? Je suppose que cela a quelque chose à voir avec le manque d’images réelles d’un lama jouant au basket vues pendant l’entraînement.

J’ai tenté d’aller plus loin en ajoutant le terme clé ‘ photo réaliste de  ‘ :

Images générées par l’auteur à l’aide de DALL·E 2 avec invite « photo réaliste de lama jouant au basket »

Ce lama a l’air plus photoréaliste, mais l’image entière commence à ressembler à un travail Photoshop bâclé. Dans ce cas, DALL·E 2 avait clairement besoin d’être tenu en main pour créer une scène cohérente.

Ingénierie rapide, c’est-à-dire l’art de spécifier exactement ce que vous voulez

Dans le contexte de DALL·E,  l’ingénierie des invites fait référence au processus de conception d’invites pour vous donner les résultats souhaités.

Le  DALL·E 2 Prompt Book  est une ressource fantastique pour cela. Il contient une liste détaillée d’inspirations pour les invites utilisant des mots-clés de la photographie et de l’art.

Pourquoi quelque chose comme ça est-il nécessaire ? Parce qu’obtenir une sortie utilisable de DALL·E 2 est délicat  (surtout quand vous n’êtes pas sûr de ce que DALL·E 2 est capable de faire). À tel point qu’une  nouvelle startup crée un marché facturant 1,99 $ pour les invites  afin de vous faire gagner du temps et de l’argent pour créer le vôtre.

Ma trouvaille préférée est le « rétroéclairage dramatique » :

Nous parlons maintenant! Images générées par l’auteur à l’aide de DALL·E 2 avec l’invite : « Film fixe d’un lama trempant un ballon de basket, contre-plongée, très long plan, intérieur, contre-jour dramatique.

Il est important de dire exactement à DALL·E 2  ce  que vous voulez. Apparemment, il n’est pas évident d’après le contexte que ce lama doive être habillé pour l’occasion. DALL·E 2 fait un excellent travail en réalisant cette scène fantastique cependant, lorsque ‘ lama portant un maillot ‘ est spécifié :

Basket-ball lama dunk, maintenant livré avec des maillots. Images générées par l’auteur avec DALL·E 2 à l’aide de l’invite : « image fixe d’un alpaga portant un maillot, trempant un ballon de basket, contre-plongée, plan d’ensemble, intérieur, contre-jour dramatique, détails élevés. »

Cela ne s’arrête pas là. Pour ajouter un peu de drame à l’image et vraiment faire voler ce lama, j’avais besoin de spécifier des phrases telles que  » tremper un ballon de basket « ,  » photo d’action de… « , ou ma préférée personnelle : « … lama en maillot plongeant un ballon de basket comme Michael Jordan ” :

Michael Jordan — s’il était un lama, selon DALL·E 2. Images générées par l’auteur avec DALL·E 2 à l’aide de l’invite « film still of a lama in a jersey dunking a basketball like Michael Jordan, low angle, show from below, cadre incliné, 35°, angle hollandais, très long plan, très détaillé, intérieur, contre-jour dramatique.

Astuce : DALL·E 2 ne stocke que les 50 générations précédentes dans votre onglet historique. Assurez-vous de sauvegarder vos images préférées au fur et à mesure.

 

Vous l’avez peut-être remarqué : DALL·E 2 n’est pas très bon en composition.

On pourrait penser que dans le contexte de « plonger un ballon de basket », il serait évident où les positions relatives du lama, du ballon et du cerceau devraient être. Le plus souvent, le lama plonge dans le mauvais sens, ou la balle est positionnée de telle manière que le lama n’a aucun espoir réel de tirer. Bien que tous les éléments de l’invite soient là, DALL·E 2 ne « comprend » pas vraiment la relation entre eux. Cet article couvre le sujet plus en profondeur .

Image générée par l’auteur à l’aide de DALL·E 2 avec l’invite : « Film fixe d’un lama en maillot trempant un ballon de basket comme Michael Jordan, contre-plongée, vue d’en bas, cadre incliné, 35°, angle néerlandais, plan très éloigné, détails élevés , à l’intérieur, contre-jour spectaculaire.

Un autre artefact de DALL·E 2 qui ne « comprend » pas vraiment la scène est le mélange occasionnel de textures. Dans l’image ci-dessous, le filet est fait de fourrure (une scène morbide quand on y pense) :

Image générée par l’auteur à l’aide de DALL·E 2 avec l’invite : « Photo expressive d’un lama portant un maillot trempant un ballon de basket comme Michael Jordan, contre-plongée, plan extrêmement large, à l’intérieur, contre-jour spectaculaire, détails élevés. »

DALL·E 2 a du mal à générer des visages réalistes

Selon certaines sources , il pourrait s’agir d’une tentative délibérée d’éviter de générer des deepfakes. Je pensais que cela ne s’appliquerait qu’aux sujets humains, mais apparemment, cela s’applique aussi aux lamas.

Certains des résultats étaient carrément effrayants.

Image générée par l’auteur à l’aide de DALL·E 2 avec l’invite : « Photo dramatique d’un lama portant un maillot trempant un ballon de basket comme Michael Jordan, contre-plongée, plan large, intérieur, contre-jour spectaculaire, détails élevés. »

Quelques autres limitations de DALL·E 2

Voici quelques autres problèmes mineurs que j’ai rencontrés :

Les angles et les plans sont interprétés de manière lâche

Peu importe le nombre de variantes de ‘ au loin ‘ ou ‘ extrême long shot ‘ que j’utilisais, il était difficile de trouver des images où le lama entier tenait dans le cadre.

Dans certains cas, le cadrage a été entièrement ignoré :

Image générée par l’auteur à l’aide de DALL·E 2 avec l’invite : « Film dramatique d’un lama portant un maillot trempant un ballon de basket, contre-plongée, vue d’en bas, cadre incliné, 35 °, angle hollandais, très long plan, intérieur, dramatique rétro-éclairage, détails élevés.

DALL·E 2 ne sait pas épeler

Je suppose que cela ne devrait pas être trop surprenant étant donné que DALL·E 2 a du mal à « comprendre » la relation entre les composants. Il est cependant capable de tenter des lettres entièrement formées dans le bon contexte :

Image générée par l’auteur à l’aide de DALL·E 2 avec l’invite : « Film still of a fluffy llama in a jersey dunking a basketball like Michael Jordan, contre-plongée, vue d’en bas, cadre incliné, 35°, angle hollandais, très long plan, haut détail, intérieur, contre-jour spectaculaire.

DALL·E 2 peut être capricieux avec des invites complexes ou mal formulées

Parfois, l’ajout de mots-clés ou la formulation de l’invite de certaines manières conduisait à des résultats complètement différents de ce qui était attendu.

Dans ce cas, le véritable sujet de l’invite (lama portant un maillot) a été complètement ignoré :

Voilà un dunk impressionnant. Images générées par l’auteur à l’aide de DALL·E 2 avec l’invite : « Un contre-plongée, un long plan, à l’intérieur, un contre-jour spectaculaire, une photo professionnelle d’un lama portant un maillot, trempant un ballon de basket. »

Même l’ajout du terme « moelleux » a conduit à des performances considérablement dégradées et à de nombreux cas où il semblait que DALL·E 2 venait de… tomber en  panne :

Images générées par l’auteur à l’aide de DALL·E 2 avec l’invite : « Film still of a fluffy llama in a jersey dunking a basketball like Michael Jordan, high detail, indoor, dramatique backlighting. » (Image intentionnellement modifiée pour flouter et masquer les visages).

En travaillant avec DALL·E 2, il est important d’être précis sur ce que vous voulez  sans  surcharger ni ajouter de mots redondants.

La capacité de DALL·E 2 à transférer des styles est impressionnante

Vous devez essayer ceci!

Une fois que vous avez votre sujet de mot-clé, vous pouvez générer l’image dans un nombre impressionnant d’autres styles artistiques.

‘Peinture abstraite de….’

Images générées par l’auteur à l’aide de DALL·E 2 avec l’invite : « Peinture abstraite d’un lama en maillot trempant un ballon de basket comme Michael Jordan, prise de dessous, cadre incliné, 35°, angle néerlandais, plan extrêmement long, détails élevés, dramatique rétro-éclairage, intérieur. En arrière-plan, il y a un stade plein de monde.

« Ils t’ont battu »

Images générées par l’auteur à l’aide de DALL·E 2 avec l’invite : « Film still of a lama in a jersey dunking a basketball like Michael Jordan, dramatique backlighting, vibrant sunset, vaporwave. »

‘Art numérique’

Images générées par l’auteur à l’aide de DALL·E 2 avec l’invite : « lama en maillot trempant un ballon de basket comme Michael Jordan, prise de vue d’en bas, cadre incliné, 35 °, angle néerlandais, plan extrêmement long, détails élevés, contre-jour dramatique, épique, art numérique »

« Captures d’écran du film d’animation Miyazaki »

Images générées par l’auteur à l’aide de DALL·E 2 avec invite : « Lama en maillot trempant un ballon de basket comme Michael Jordan, captures d’écran du film d’animation Miyazaki ». Merci à l’astuce de cet article.

Dernières pensées

Après plus de 100 crédits (~13 USD) et de nombreux essais et erreurs, voici mon image finale :

Mon image gagnante. https://labs.openai.com/s/HYv3Kp8ElKDAWKHq2vs76VXu

L’image n’est pas parfaite, mais DALL·E 2 a réussi à remplir environ 80 % du brief.

La plupart des crédits sont allés à essayer d’obtenir la bonne combinaison de style, de visages et de composition pour travailler ensemble.

Selon  l’annonce DALL·E d’OpenAI ,

« … les utilisateurs obtiennent tous les droits d’utilisation pour commercialiser les images qu’ils créent avec DALL·E, y compris le droit de réimprimer, de vendre et de commercialiser. »

Attendez-vous à ce que de nombreux utilisateurs jouent vite et librement avec ces règles.

En tant que créateur de contenu, DALL·E 2 sera particulièrement utile pour créer des illustrations simples, des photos et des graphiques pour les blogs et les sites Web. Je l’utiliserai comme alternative à Unsplash pour créer des images de couverture de blog qui ne ressembleront pas à celles des autres.

Si vous êtes sur le point d’essayer DALL·E 2 vous-même, voici quelques  conseils avant de commencer :

  • Consultez le  livre d’ invite DALL·E 2 ! (Aussi, la  feuille d’ingénierie rapide faite par les fans ).
  • Soyez prêt à faire des essais et des erreurs pour obtenir ce que vous voulez. Quinze crédits gratuits peuvent sembler beaucoup, mais ce n’est vraiment pas le cas. Attendez-vous à utiliser  au moins  15 crédits pour générer une image utilisable. DALL·E 2 n’est  pas  bon marché.
  • N’oubliez pas de sauvegarder vos images préférées au fur et à mesure.

Merci d’avoir lu!  J’aimerais connaître votre expérience avec DALL·E 2 et je serais ravi de recevoir vos commentaires ou suggestions.

Si vous avez aimé lire ceci, voici quelques articles d’autres écrivains qui pourraient également vous plaire :


Publié à l’origine dans ‘ Vers l’IA ‘.

Retour en haut