Anthropic has released significant upgrades to its Claude 3.5 Sonnet AI model, improving its coding performance and surpassing competitors like Gemini 1.5. The new Claude 3.5 Haiku model, though smaller, also excels in coding tasks. A key feature is the public beta of « Computer Use, » allowing Claude to interact with desktop applications by mimicking human commands. While this capability holds potential for automation, Anthropic acknowledges risks associated with misuse and has implemented safeguards to monitor API usage.
Anthropic a récemment amélioré son modèle d’intelligence artificielle, Claude 3.5 Sonnet, offrant ainsi des performances nettement améliorées. Cette mise à jour coïncide avec le lancement de Claude 3.5 Haiku, une version plus légère mais tout aussi performante. La nouvelle version de Sonnet intègre une fonctionnalité bêta publique qui permet à l’IA d’interagir directement avec l’ordinateur sur lequel elle fonctionne.
Claude 3.5 Sonnet, déjà reconnu pour son efficacité dans le domaine du codage, montre des avancées majeures par rapport à son prédécesseur. Il surpasse régulièrement d’autres modèles, tels que Gemini 1.5 et GPT-4o, dans divers benchmarks de l’industrie. Cependant, Gemini 1.5 Pro reste le seul à avoir surpassé Claude 3.5 Sonnet dans des tests spécifiques, comme celui de MATH.
De son côté, Claude 3.5 Haiku, bien que plus compact, ne démérite pas. Prévu pour sortir à la fin du mois, ce modèle surpasse le précédent Claude 3.0 Opus, démontrant d’excellentes performances dans des tâches de codage, avec un score impressionnant de 40,6 % au benchmark SWE, ce qui le place devant le GPT-40 et l’original 3.5 Sonnet.
Une des améliorations majeures de Claude 3.5 Sonnet est sa capacité à interagir avec des applications grâce à l’API « Computer Use ». Cette fonctionnalité permet à l’IA de simuler un utilisateur humain en émettant des frappes de touches et des commandes de souris. Bien que ce système soit encore en phase expérimentale et susceptible d’erreurs, son lancement est une étape vers l’acquisition de retours d’expérience pour optimiser cette technologie.
Dans un article de blog, Anthropic souligne que Claude a été a été formé pour interpréter ce qui se passe à l’écran et pour utiliser les logiciels disponibles pour accomplir des tâches. Quand un développeur demande à Claude de manipuler un logiciel, il examine les captures d’écran visibles, lui permettant de déterminer les coordonnées nécessaires pour effectuer des actions comme cliquer à un endroit précis. Cela ouvre des possibilités pour automatiser divers processus, allant de la génération de leads marketing à l’analyse de données médicales, en passant par la navigation sur des sites web et le remplissage de formulaires. Des entreprises telles qu’Asana, Canva et Replit sont déjà en train d’explorer cette nouvelle fonctionnalité, avec Replit utilisant Computer Control pour améliorer son produit Replit Agent.
Anthropic rassure également le public, affirmant que l’utilisation de l’IA ne menace pas de devenir incontrôlable comme un scénario de science-fiction. Les actions de Claude sont régies par les commandes des utilisateurs, qui peuvent autoriser ou restreindre l’accès aux données selon leurs besoins. Comme l’a déclaré un porte-parole d’Anthropic, Claude décompose les demandes en commandes exécutables pour accomplir la tâche demandée.
Cependant, l’entreprise reconnait également les risques potentiels liés à l’utilisation de Computer Control à des fins malveillantes, comme la création de spam ou la désinformation. Pour contrer ces abus, Anthropic développe des classificateurs capables d’identifier l’utilisation inappropriée de l’API et d’évaluer son impact.