OpenAI lance le modèle GPT-4o 'omni' maintenant propulsant ChatGPT

OpenAI a annoncé lundi un nouveau modèle d'IA générative phare qu'ils appellent GPT-4o - le 'o' signifie 'omni', faisant référence à la capacité du modèle à gérer le texte, la parole et la vidéo. GPT-4o devrait être déployé de manière 'itérative' dans les produits destinés aux développeurs et aux consommateurs de l'entreprise au cours des prochaines semaines.

La directrice technique d'OpenAI, Mira Murati, a déclaré que GPT-4o fournit une intelligence de niveau "GPT-4" mais améliore les capacités de GPT-4 dans plusieurs modalités et médias.

'GPT-4o raisonne à travers la voix, le texte et la vision', a déclaré Murati lors d'une présentation en streaming aux bureaux d'OpenAI à San Francisco lundi. 'Et c'est incroyablement important, car nous envisageons l'avenir de l'interaction entre nous-mêmes et les machines.'

GPT-4 Turbo, le précédent 'modèle le plus avancé' d'OpenAI, a été entraîné sur une combinaison d'images et de texte et pouvait analyser des images et du texte pour accomplir des tâches telles que l'extraction de texte des images ou même la description du contenu de ces images. Mais GPT-4o ajoute la parole à l'équation.

Qu'est-ce que cela permet ? Un certain nombre de choses.

Crédits image : OpenAI

GPT-4o améliore considérablement l'expérience dans le chatbot alimenté par l'IA d'OpenAI, ChatGPT. La plateforme propose depuis longtemps un mode vocal qui transcrit les réponses du chatbot à l'aide d'un modèle de texte en parole, mais GPT-4o décuple cette fonctionnalité, permettant aux utilisateurs d'interagir avec ChatGPT plus comme un assistant.

Par exemple, les utilisateurs peuvent poser une question au ChatGPT propulsé par GPT-4o et interrompre ChatGPT pendant sa réponse. Le modèle offre une réactivité 'en temps réel', selon OpenAI, et peut même saisir les nuances dans la voix d'un utilisateur, en générant des voix dans 'une gamme de styles émotifs différents' (y compris chanter).

GPT-4o améliore également les capacités de vision de ChatGPT. En donnant une photo - ou un écran de bureau - ChatGPT peut maintenant répondre rapidement à des questions connexes, allant de 'Que se passe-t-il dans ce code logiciel?' à 'De quelle marque est la chemise que porte cette personne?'

Application de bureau ChatGPT en cours d'utilisation pour une tâche de codage.
Crédits image : OpenAI

Ces fonctionnalités évolueront davantage à l'avenir, selon Murati. Alors qu'aujourd'hui, GPT-4o peut regarder une photo d'un menu dans une langue différente et la traduire, à l'avenir, le modèle pourrait permettre à ChatGPT de, par exemple, 'regarder' un match de sport en direct et vous expliquer les règles.

'Nous savons que ces modèles deviennent de plus en plus complexes, mais nous voulons que l'expérience d'interaction devienne en fait plus naturelle, facile, et que vous ne vous concentriez pas du tout sur l'interface utilisateur, mais que vous vous concentriez simplement sur la collaboration avec ChatGPT', a déclaré Murati. 'Au cours des dernières années, nous avons été très axés sur l'amélioration de l'intelligence de ces modèles... Mais c'est la première fois que nous faisons vraiment un grand pas en avant en ce qui concerne la facilité d'utilisation.'

OpenAI affirme que GPT-4o est plus multilingue, avec des performances améliorées dans environ 50 langues. Et dans l'API d'OpenAI et le service Azure OpenAI de Microsoft, GPT-4o est deux fois plus rapide, moitié moins cher et a des limites de taux plus élevées que GPT-4 Turbo, selon l'entreprise.

Actuellement, la voix ne fait pas partie de l'API de GPT-4o pour tous les clients. OpenAI, citant le risque de mauvaise utilisation, prévoit de d'abord lancer le support des nouvelles capacités audio de GPT-4o à 'un petit groupe de partenaires de confiance' dans les semaines à venir.

GPT-4o est disponible dans la version gratuite de ChatGPT à partir d'aujourd'hui et pour les abonnés aux plans premium ChatGPT Plus et Team d'OpenAI avec des limites de messages '5x plus élevées'. (OpenAI note que ChatGPT passera automatiquement à GPT-3.5, un modèle plus ancien et moins performant, lorsque les utilisateurs atteindront la limite de taux.) L'expérience vocale améliorée de ChatGPT étayée par GPT-4o arrivera en version alpha pour les utilisateurs Plus dans le mois à venir, aux côtés d'options axées sur l'entreprise.

En outre, OpenAI a annoncé qu'elle lance une nouvelle UI rafraîchie pour ChatGPT sur le web avec un nouvel écran d'accueil et une disposition des messages 'plus conversationnels', ainsi qu'une version de bureau de ChatGPT pour macOS qui permet aux utilisateurs de poser des questions via un raccourci clavier ou de prendre et discuter de captures d'écran. Les utilisateurs Plus de ChatGPT auront accès à l'application en premier, à partir d'aujourd'hui, et une version Windows arrivera plus tard dans l'année.

Dans un autre domaine, le GPT Store, la bibliothèque d'OpenAI et les outils de création pour les chatbots tiers construits sur ses modèles d'IA, sont désormais disponibles pour les utilisateurs de la version gratuite de ChatGPT. Et les utilisateurs gratuits peuvent profiter de fonctionnalités de ChatGPT qui étaient auparavant derrière un mur payant, comme une capacité de mémoire qui permet à ChatGPT de 'se souvenir' des préférences pour les interactions futures, de télécharger des fichiers et des photos, et de rechercher des réponses à des questions actuelles sur le web.

Nous lançons une newsletter sur l'IA! Inscrivez-vous ici pour commencer à la recevoir dans vos boîtes de réception le 5 juin.