Hier, la société d’IA californienne Adept a annoncé Action Transformer (ACT-1), un modèle d’IA qui peut effectuer des actions dans un logiciel comme un assistant humain lorsqu’il reçoit des commandes écrites ou verbales de haut niveau. Il peut exploiter des applications Web et effectuer des recherches intelligentes sur des sites Web tout en cliquant, en faisant défiler et en tapant dans les bons champs comme s’il s’agissait d’une personne utilisant l’ordinateur.
Dans une vidéo de démonstration tweeté par Adept, la société montre quelqu’un en train de taper « Trouvez-moi une maison à Houston qui convient à une famille de 4 personnes. Mon budget est de 600 000 € » dans une zone de saisie de texte. Lors de la soumission de la tâche, ACT-1 parcourt automatiquement Redfin.com dans un navigateur Web, en cliquant sur les régions appropriées du site Web, en tapant une entrée de recherche et en modifiant les paramètres de recherche jusqu’à ce qu’une maison correspondante apparaisse à l’écran.
1/7 Nous avons construit un nouveau modèle ! Il s’appelle Action Transformer (ACT-1) et nous lui avons appris à utiliser un tas d’outils logiciels. Dans cette première vidéo, l’utilisateur tape simplement une requête de haut niveau et ACT-1 fait le reste. Lisez la suite pour voir plus d’exemples ⬇️ pic.twitter.com/mq7c0Vyd7N
— Adepte (@AdeptAILabs) 14 septembre 2022
Une autre vidéo de démonstration sur le site Web d’Adept montre ACT-1 exploitant Salesforce avec des invites telles que « ajouter Max Nye chez Adept en tant que nouveau prospect » et « enregistrer un appel avec James Veel disant qu’il envisage d’acheter 100 widgets ». ACT-1 clique ensuite sur les bons boutons, fait défiler et remplit les formulaires appropriés pour terminer ces tâches. D’autres vidéos de démonstration montrent ACT-1 naviguant sur Google Sheets, Craigslist et Wikipedia via un navigateur.
Comment est-ce possible? Adept décrit ACT-1 comme un « transformateur à grande échelle ». En IA, un modèle de transformateur est un type de réseau de neurones qui apprend à faire quelque chose en s’entraînant sur des exemples de données, et il acquiert une connaissance du contexte et des relations entre les éléments de l’ensemble de données. Les transformateurs ont été à l’origine de nombreuses innovations récentes en matière d’IA, y compris des modèles de langage comme GPT-3 qui peuvent écrire à un niveau presque humain.
Dans le cas d’ACT-1, les données de formation provenaient apparemment d’humains utilisant le logiciel en premier, et le modèle d’IA en a tiré des leçons. Quelqu’un qui s’est identifié comme développeur pour ACT-1 sur Hacker News a écrit : « Nous avons utilisé une combinaison de démonstrations humaines et de données de rétroaction ! Vous avez besoin d’un logiciel personnalisé à la fois pour enregistrer les démonstrations et pour représenter l’état de l’outil de manière consommable par modèle.«
Après la formation, le modèle ACT-1 interagit avec un navigateur Web via une extension Chrome qui peut « observer ce qui se passe dans le navigateur et effectuer certaines actions, comme cliquer, taper et faire défiler », selon Adept. La société décrit la capacité d’observation d’ACT -1 comme étant capable de se généraliser sur tous les sites Web, de sorte que les règles apprises sur un site peuvent s’appliquer à d’autres.
Alors que des scripts pour automatiser la navigation existent déjà (et sont souvent utilisés pour alimenter des bots avec de mauvaises intentions), la nature puissante et généralisée d’ACT-1 impliquée dans les démos semble porter l’automatisation des machines à un nouveau niveau. Déjà, les gens sur Twitter sont à la fois sérieux et à moitié en plaisantant déclencher des alarmes sur le potentiel d’utilisation abusive que cette technologie pourrait apporter. Devrions-nous permettre à un système intelligent d’avoir autant de contrôle sur nos interfaces informatiques ?
Bien que ces préoccupations soient purement hypothétiques pour le moment, d’autant plus que ACT-1 ne fonctionne pas de manière autonome, il convient de les garder à l’esprit alors que nous nous précipitons tête baissée vers une IA généralisée au niveau humain qui peut s’interfacer avec le monde extérieur via Internet. Adept fait même référence à cet objectif sur son site Web, en écrivant : « Nous pensons que le cadre le plus clair de l’intelligence générale est un système qui peut faire tout ce qu’un humain peut faire devant un ordinateur. »