In January 2025, OpenAI unveiled “Operator,” a groundbreaking AI agent designed to perform tasks autonomously online, marking a shift from reactive models like ChatGPT. Currently accessible only in the U.S. with a ChatGPT Pro subscription, Operator utilizes a new model called CUA, integrating advanced reasoning and computer vision. OpenAI envisions wider availability in the future, as 2025 is anticipated to be a pivotal year for autonomous AI agents, with other tech companies also exploring similar innovations.
En janvier 2025, OpenAI a révélé un projet qui aurait pu figurer parmi les douze annonces de son calendrier de l’Avent en décembre 2024. Ce que la startup américaine a présenté offre un aperçu fascinant de l’avenir de l’intelligence artificielle (IA), du moins selon sa vision.
Un agent qui agit pour vous sur le web
Le concept principal ? Mettre en œuvre une IA plus active, contrastant avec les produits précédemment disponibles. Prenons l’exemple de ChatGPT, qui est plutôt réactif : le chatbot répond simplement aux questions au fur et à mesure qu’elles arrivent. En revanche, une IA plus performante pourrait “agir sur Internet”.
Le nom du programme, “Operator”, reflète parfaitement cette nouvelle fonctionnalité. “Operator est l’un de nos premiers agents, c’est-à-dire des IA capables d’effectuer des tâches de manière autonome pour vous — vous lui donnez une tâche et elle s’exécute“, explique OpenAI, qui présente cela comme une “première“, du moins pour la startup.
C’est effectivement une première pour OpenAI, mais pas nécessairement pour l’industrie de l’intelligence artificielle. À l’automne 2024, l’un des concurrents de la startup, Anthropic, avait fait sensation avec un modèle capable de “prendre le contrôle” de la souris et du clavier d’un ordinateur pour exécuter diverses tâches pour l’utilisateur.
Un nouveau modèle, pour l’instant réservé aux États-Unis et coûteux
Malheureusement, vous ne pourrez pas le tester tout de suite. Bien qu’il existe déjà un accès dédié (operator.chatgpt.com), il est uniquement disponible à partir d’une connexion aux États-Unis (sauf si vous utilisez un abonnement VPN). De plus, un abonnement ChatGPT Pro est nécessaire, ce qui revient à 200 $ par mois.
Cependant, ces restrictions ne seront pas permanentes. À terme, cet Operator “fera partie de ChatGPT et sera disponible plus largement“, a assuré la société fondée par Sam Altman — l’intéressé a tenu une session de streaming en direct le même jour pour présenter son agent de manière plus détaillée. Parallèlement, un article de recherche a été publié en ligne en avant-première.
Sur le plan technique, OpenAI précise qu’Operator repose sur un nouveau modèle appelé CUA (Computer Using Agent). Ce modèle combine les capacités de vision par ordinateur de GPT-4o, lancé en mai 2024, avec un raisonnement avancé basé sur l’apprentissage par renforcement.
“Il est entraîné pour contrôler un ordinateur de la même manière qu’un humain : il regarde l’écran et utilise une souris et un clavier“, développe OpenAI. Toutefois, le modèle “a encore des limitations et continuera d’évoluer en fonction des retours“. Il est également prévu de rendre CUA disponible via une API pour les développeurs.
2025, l’année de la montée en puissance des agents IA
Lors d’une session de questions-réponses sur Reddit en novembre, Sam Altman a affirmé que 2025 serait l’année où les agents autonomes pourraient connaître une large adoption. Bien que des projets similaires aient déjà été explorés, comme Auto-GPT ou Baby-GPT, cette fois-ci, l’industrie semble adopter une approche plus sérieuse.
En effet, au-delà de ChatGPT, qui a déjà exprimé son souhait d’intégrer davantage les ordinateurs, d’autres entreprises s’impliquent. Apple, par exemple, avec un Siri capable d’analyser le contenu de votre écran, ou Microsoft avec son système Copilot, qui prend et étudie de nombreux clichés d’écran de PC. Operator démontre également que l’Internet est un terrain de jeu prometteur.