L’intelligence artificielle DALL-E 2 d’OpenAI crée des images cartoonesques selon une description textuelle sortie de votre imagination.
En janvier 2021, le consortium OpenAI – fondé par Elon Musk et soutenu financièrement par Microsoft -, dévoilait son projet le plus ambitieux à ce jour, le système de machine learning DALL-E. Cette intelligence artificielle multimodale ingénieuse était capable de générer des images dans un style dessin animé en se basant seulement sur des mots clef donnés par un utilisateur. Tout récemment, le consortium a dévoilé sa nouvelle itération de DALL-E, avec une résolution plus élevée et une latence plus faible que la précédente.
L’intelligence artificielle DALL-E 2 d’OpenAI crée des images cartoonesques
La première version de DALL-E (contraction de Dalie et Wall-E) pouvait générer des images et combiner plusieurs images en un collage, offrir différents angles de perspective et même deviner un certain nombre d’éléments d’une image – comme les effets d’ombre – depuis une simple description écrite.
“Contrairement à un moteur de rendu 3D dont les entrées doivent être spécifiées sans ambiguïté dans les moindres détails, DALL-E est souvent capable de ‘remplir les blancs’ lorsque la légende implique que l’image contienne certains détails non explicitement déclarés”, expliquait l’équipe d’OpenAI en 2021.
DALL-E n’a jamais été prévu pour être un produit commercial et fut de fait limité dans ses capacités puisque l’équipe d’OpenAI n’y voyait là qu’un outil de recherche. Il fallait aussi éviter d’en arriver à ce que Microsoft avait connu avec son chat bot Tay et que le système ne puisse générer de quelconque fausse information. Pour cette deuxième version, les objectifs sont restés les mêmes, et un filigrane est ajouté sur l’image pour bien indiquer que celle-ci a été générée par une intelligence artificielle. En outre, le système empêche désormais les utilisateurs de créer des images à partir de noms propres.
selon une description textuelle sortie de votre imagination
DALL-E 2, qui utilise le système de reconnaissance d’images d’OpenAI CLIP, utilise ses capacités de génération d’image. Les utilisateurs peuvent désormais sélectionner et modifier certaines zones d’images existantes, ajouter ou supprimer des éléments ainsi que leurs ombres, mélanger deux images en un seul collage et générer des variantes d’une image existante. Les images générées sont désormais des carrés de 1 024 pixels, bien que les avatars de 256 pixels de la version originale. CLIP a été conçu pour résumer le contenu d’une image de telle sorte qu’un humain puisse la comprendre. Le consortium a inversé le processus, en construisant une image à partir de sa description.
“DALL-E 1 prenait notre approche GPT-3 du langage et l’appliquait pour produire une image : nous compressions les images en une série de mots et nous avons appris à prédire ce qui arrive ensuite”, expliquait le chercheur Prafulla Dhariwal à The Verge.
Contrairement à la première version avec laquelle tout le monde pouvait jouer sur le site d’OpenAI, cette version 2 n’est actuellement accessible qu’à certains partenaires, et eux-mêmes sont limités dans ce qu’ils peuvent faire. Seuls quelques chanceux peuvent l’utiliser. Il leur est par ailleurs impossible d’exporter les images générées sur une plate-forme tierce bien que OpenAI envisage, dans le futur, de rendre les nouvelles capacités de DALL-E 2 accessibles via une API. Si vous souhaitez tout de même essayer le système, vous pouvez vous inscrire sur la liste d’attente.
Source link