Google n'a pas le meilleur historique en matière d'intelligence artificielle génératrice d'images.
En février, le générateur d'images intégré à Gemini, le chatbot alimenté par l'IA de Google, a été découvert injectant aléatoirement de la diversité de genre et raciale dans des suggestions sur les personnes, ce qui a entraîné des images de nazis d'origines diverses, parmi d'autres inexactitudes offensantes.
Google a retiré le générateur, promettant de l'améliorer et de le réintroduire ultérieurement. En attendant son retour, la société lance un outil de génération d'images amélioré, Imagen 2, à l'intérieur de sa plateforme de développement Vertex AI - bien qu'un outil avec une orientation clairement plus orientée entreprise.
Imagen 2 - qui est en fait une famille de modèles, lancée en décembre après avoir été prévisualisée lors de la conférence I/O de Google en mai 2023 - peut créer et éditer des images à partir d'une suggestion de texte, comme DALL-E et Midjourney d'OpenAI. D'intérêt pour les professionnels, Imagen 2 peut rendre du texte, des emblèmes et des logos dans plusieurs langues, superposant éventuellement ces éléments sur des images existantes - par exemple, sur des cartes de visite, des vêtements et des produits.
Après avoir été lancée en prévisualisation, l'édition d'images avec Imagen 2 est désormais disponible dans Vertex AI, avec deux nouvelles fonctionnalités: l'inpainting et l'outpainting. L'inpainting et l'outpainting, des fonctionnalités proposées depuis un certain temps par d'autres générateurs d'images populaires comme DALL-E, peuvent être utilisées pour supprimer des parties indésirables d'une image, ajouter de nouveaux éléments et agrandir les bordures d'une image pour créer un champ de vision plus large.
Mais le vrai point fort de la mise à niveau d'Imagen 2 est ce que Google appelle les “images en direct à partir de texte”.
Imagen 2 peut désormais créer de courtes vidéos de quatre secondes à partir de suggestions de texte, dans la lignée d'outils de génération de clips alimentés par l'IA comme Runway, Pika et Irreverent Labs. Fidèle à l'orientation d'Imagen 2 vers les entreprises, Google présente les images en direct comme un outil pour les spécialistes du marketing et les créatifs, comme un générateur de GIF pour des publicités montrant la nature, la nourriture et les animaux - des sujets sur lesquels Imagen 2 a été peaufiné.
Google indique que les images en direct peuvent capturer “une série d'angles de caméra et de mouvements”, tout en “assurant la cohérence sur l'ensemble de la séquence.” Mais elles sont actuellement en basse résolution: 360 pixels par 640 pixels. Google promet que cela s'améliorera à l'avenir.