Le lundi 13 mai 2024, au cours de son événement de mise à jour de printemps à San Francisco, OpenAI a dévoilé sa dernière innovation : le GPT-4 Omni (GPT-4o). Cette nouvelle itération du modèle GPT-4 est une avancée majeure qui promet de transformer radicalement l’interaction entre les humains et les machines. Mira Murati, la Directrice Technique d’OpenAI, a souligné que GPT-4o “offre une intelligence au niveau du GPT-4 mais avec une vitesse grandement améliorée”.
Sommaire
Capacités étendues et accessibilité accrue
GPT-4o est conçu pour être “nativement multimodal”, ce qui signifie qu’il peut générer du contenu ou comprendre des commandes en utilisant la voix, le texte, ou les images. Cette capacité multimodale permet une interaction beaucoup plus naturelle et intuitive avec la technologie. De plus, OpenAI a annoncé que le modèle serait disponible gratuitement pour tous les utilisateurs, les utilisateurs payants bénéficiant jusqu’à cinq fois plus de capacité par rapport aux utilisateurs gratuits.
Des fonctionnalités de voix à la pointe de la technologie
L’une des innovations les plus impressionnantes de GPT-4o est sa capacité à mener des conversations verbales en temps réel. Selon les démonstrations, la voix du modèle ressemble étrangement à celle de Scarlett Johansson dans le film “Her”, où elle joue le rôle d’un assistant vocal. GPT-4o peut réagir instantanément aux sollicitations verbales avec une intonation émotionnelle, montrant de l’excitation ou du rire, adaptant ainsi sa réponse au ton émotionnel de l’utilisateur.
Multimodalité et intégration
GPT-4o peut traiter des textes, des flux audio, et des images avec peu ou pas de latence. Cette capacité à gérer plusieurs types de données à travers un seul modèle fait de GPT-4o une plateforme extrêmement rapide et efficace. Les utilisateurs peuvent, par exemple, montrer à GPT-4o une image d’un problème mathématique avec la caméra de leur téléphone tout en discutant verbalement avec le modèle.
Lancement et applications pratiques
La version de bureau de GPT-4o pour macOS a également été lancée, permettant des conversations vocales directes avec ChatGPT depuis un ordinateur et le partage d’écran avec un minimum de friction. En outre, le site web ChatGPT bénéficiera d’une refonte simplifiée pour améliorer l’expérience utilisateur.
Réflexion sur la trajectoire d’OpenAI
Sam Altman, PDG d’OpenAI, a réfléchi sur la trajectoire de l’entreprise dans un billet de blog suivant l’événement en direct. Il a reconnu que la vision originale d’OpenAI avait évolué, passant de l’open-source à la mise à disposition de ses modèles avancés via des API payantes. Cela permet aux développeurs tiers de créer des applications innovantes, étendant ainsi les bénéfices de l’IA à un plus large éventail d’utilisateurs.
Perspectives futures
Bien que GPT-5 n’ait pas encore été annoncé, l’excitation reste palpable autour des capacités de GPT-4o et des futures innovations d’OpenAI. Le modèle GPT-4o est un jalon important dans l’avancement de l’IA, avec son approche multimodale et sa capacité à traiter divers types de données de manière intégrée et efficace.
En conclusion, GPT-4 Omni marque un tournant significatif pour OpenAI et pour le domaine de l’intelligence artificielle en général. Avec ses capacités étendues et son accessibilité améliorée, il promet de révolutionner la façon dont nous interagissons avec la technologie, rendant l’IA plus accessible, plus rapide, et plus utile pour un éventail plus large d’applications pratiques. L’avenir de l’IA semble non seulement prometteur mais également imminent, grâce aux efforts continus d’OpenAI pour pousser les frontières de ce qui est possible.