Dans l’ancien jeu chinois de Allerl’intelligence artificielle de pointe est généralement capable de vaincre les meilleurs joueurs humains depuis au moins 2016. Mais au cours des dernières années, les chercheurs ont découvert des failles dans ces IA de haut niveau Aller des algorithmes qui donnent aux humains une chance de se battre. En utilisant des stratégies « cycliques » peu orthodoxes – des stratégies que même un joueur humain débutant pourrait détecter et vaincre – un humain astucieux peut souvent exploiter les lacunes de la stratégie d’une IA de haut niveau et tromper l’algorithme et lui faire perdre.
Des chercheurs du MIT et de FAR AI ont voulu voir s’ils pouvaient améliorer ces performances « du pire des cas » dans des algorithmes d’IA Go par ailleurs « surhumains », en testant un trio de méthodes pour renforcer les défenses de l’algorithme de haut niveau KataGo contre les attaques adverses. Les résultats montrent qu’il peut être difficile de créer des IA vraiment robustes et inexploitables, même dans des domaines aussi étroitement contrôlés que les jeux de société.
Trois stratégies qui ont échoué
Dans le document pré-imprimé « Can Aller Les IA sont-elles robustes face aux adversaires ? », les chercheurs visent à créer une Aller Une IA véritablement « robuste » contre toutes les attaques. Cela signifie un algorithme qui ne peut pas être trompé et qui fait « des erreurs qui font perdre la partie et qu’un humain ne commettrait pas », mais qui obligerait également tout algorithme d’IA concurrent à dépenser des ressources informatiques importantes pour le vaincre. Idéalement, un algorithme robuste devrait également être capable de surmonter d’éventuels exploits en utilisant des ressources informatiques supplémentaires lorsqu’il est confronté à des situations inconnues.
Les chercheurs ont essayé trois méthodes pour générer un modèle aussi robuste. Aller algorithme. Dans le premier cas, ils ont simplement peaufiné le modèle KataGo en utilisant davantage d’exemples de stratégies cycliques peu orthodoxes qui l’avaient précédemment vaincu, dans l’espoir que KataGo pourrait apprendre à détecter et à vaincre ces modèles après en avoir vu davantage.
Cette stratégie semblait au départ prometteuse, permettant à KataGo de remporter 100 % des parties contre un « attaquant » cyclique. Mais après que l’attaquant lui-même ait été affiné (un processus qui utilisait beaucoup moins de puissance de calcul que le réglage fin de KataGo), ce taux de victoire est retombé à 9 % contre une légère variation par rapport à l’attaque originale.
Pour leur deuxième tentative de défense, les chercheurs ont répété une « course aux armements » à plusieurs tours, au cours de laquelle de nouveaux modèles antagonistes découvrent de nouveaux exploits et de nouveaux modèles défensifs cherchent à combler ces failles nouvellement découvertes. Après 10 tours d’entraînement itératif, l’algorithme de défense final n’a remporté que 19 % des parties contre un algorithme d’attaque final qui avait découvert une variation de l’exploit jusque-là inconnue. Cela était vrai même si l’algorithme mis à jour a conservé un avantage sur les attaquants précédents contre lesquels il avait été entraîné dans le passé.
Lors de leur dernière tentative, les chercheurs ont essayé un tout nouveau type d’entraînement utilisant des transformateurs de vision, dans le but d’éviter ce qui pourrait être des « biais inductifs néfastes » trouvés dans les réseaux neuronaux convolutionnels qui ont initialement entraîné KataGo. Cette méthode a également échoué, ne gagnant que 22 % du temps contre une variante de l’attaque cyclique qui « peut être reproduite par un expert humain », ont écrit les chercheurs.
Est-ce que quelque chose fonctionnera ?
Dans les trois tentatives de défense, les adversaires qui ont battu KataGo ne représentaient pas une nouvelle hauteur, jamais vue auparavant, en général Aller-capacité de jeu. Au lieu de cela, ces algorithmes d’attaque étaient focalisés sur la découverte de faiblesses exploitables dans un algorithme d’IA par ailleurs performant, même si ces stratégies d’attaque simples seraient perdantes pour la plupart des joueurs humains.
Ces failles exploitables soulignent l’importance d’évaluer les performances des systèmes d’IA dans le pire des cas, même lorsque les performances dans le « cas moyen » peuvent sembler carrément surhumaines. En moyenne, KataGo peut dominer même des joueurs humains de haut niveau en utilisant des stratégies traditionnelles. Mais dans le pire des cas, des adversaires « faibles » peuvent trouver des failles dans le système qui le font s’effondrer.
Il est facile d’étendre ce type de réflexion à d’autres types de systèmes d’IA génératifs. Les LLM qui peuvent réussir certaines tâches créatives et de référence complexes peuvent néanmoins échouer complètement lorsqu’ils sont confrontés à des problèmes mathématiques triviaux (ou même être « empoisonnés » par des invites malveillantes). Les modèles d’IA visuelle qui peuvent décrire et analyser des photos complexes peuvent néanmoins échouer lamentablement lorsqu’ils sont confrontés à des formes géométriques de base.
Améliorer ce genre de scénarios « du pire » est essentiel pour éviter des erreurs embarrassantes lors du déploiement d’un système d’IA auprès du public. Mais cette nouvelle étude montre que des « adversaires » déterminés peuvent souvent découvrir de nouvelles failles dans les performances d’un algorithme d’IA beaucoup plus rapidement et facilement que cet algorithme ne peut évoluer pour résoudre ces problèmes.
Et si c’est vrai dans Aller— un jeu monstrueusement complexe qui a néanmoins des règles bien définies — cela pourrait être encore plus vrai dans des environnements moins contrôlés. « Le principal enseignement pour l’IA est que ces vulnérabilités seront difficiles à éliminer », a déclaré Adam Gleave, PDG de FAR, à Nature. « Si nous ne pouvons pas résoudre le problème dans un domaine simple comme Alleralors à court terme, il semble peu probable que des correctifs soient apportés à des problèmes similaires, comme les jailbreaks dans ChatGPT. «
Pourtant, les chercheurs ne désespèrent pas. Bien qu’aucune de leurs méthodes n’ait été en mesure de « faire [new] attaques impossibles » dans Allerleurs stratégies ont permis de colmater des exploits « fixes » immuables qui avaient été identifiés auparavant. Cela suggère qu’il « peut être possible de défendre complètement un Aller « L’IA s’entraîne contre un corpus d’attaques suffisamment large », écrivent-ils, avec des propositions de recherche future qui pourraient rendre cela possible.
Quoi qu’il en soit, cette nouvelle recherche montre que rendre les systèmes d’IA plus robustes face aux pires scénarios pourrait être au moins aussi utile que la recherche de nouvelles capacités plus humaines/surhumaines.