Google espère pouvoir bientôt « réactiver » la capacité de son outil d’IA générative multimodale, Gemini, à représenter des personnes, selon le fondateur de DeepMind, Demis Hassabis. La capacité de répondre aux demandes d’images d’humains devrait être de nouveau en ligne dans les « prochaines semaines », a-t-il déclaré aujourd’hui.
Google a suspendu la fonctionnalité Gemini la semaine dernière après que des utilisateurs ont souligné que l’outil produisait des images historiquement incongrues, telles que la représentation des pères fondateurs des États-Unis comme un groupe diversifié de personnes, plutôt que uniquement des hommes blancs.
Hassabis a répondu aux questions sur le produit snafu lors d’une interview sur scène au Mobile World Congress à Barcelone aujourd’hui.
Interrogé par un modérateur, Steven Levy de Wired, d’expliquer ce qui n’allait pas avec la fonction de génération d’images, Hassabis a évité une explication technique détaillée. Au lieu de cela, il a suggéré que le problème était dû au fait que Google n’avait pas réussi à identifier les cas où les utilisateurs recherchaient essentiellement ce qu’il a décrit comme une « représentation universelle ». L’exemple souligne « les nuances qui accompagnent l’IA avancée », a-t-il également déclaré.
« C’est un domaine dans lequel nous sommes tous aux prises. Ainsi, si, par exemple, vous insérez une invite demandant « donnez-moi une photo d’une personne promenant un chien ou d’une infirmière dans un hôpital », c’est vrai, dans ces cas-là, vous voulez clairement une sorte de « représentation universelle ». ‘ Surtout si l’on considère qu’en tant que Google, nous servons plus de 200 pays, vous savez, tous les pays du monde – vous ne savez donc pas d’où vient l’utilisateur, quel sera son parcours ou dans quel contexte il se trouve. Vous voulez donc en quelque sorte montrer une gamme très universelle de possibilités.
Hassabis a déclaré que le problème se résumait à une « fonctionnalité bien intentionnée » – favoriser une diversité dans les images des personnes de Gemini – ayant été appliquée « trop crûment, dans l’ensemble ».
Les invites qui demandent du contenu sur des personnages historiques devraient « bien sûr » entraîner « une distribution beaucoup plus étroite que vous redonnez », a-t-il ajouté, faisant allusion à la manière dont Gemini pourrait aborder les invites destinées aux personnes à l’avenir.
« Bien entendu, nous nous soucions de l’exactitude historique. Nous avons donc mis cette fonctionnalité hors ligne pendant que nous corrigeons ce problème et nous espérons la remettre en ligne dans un délai très court. Les prochaines semaines, les prochaines semaines.
Répondant à une question complémentaire sur la manière d’empêcher que les outils d’IA générative ne soient détournés par de mauvais acteurs, tels que des régimes autoritaires cherchant à diffuser de la propagande, Hassabis n’a pas eu de réponse simple. La question est « très complexe », a-t-il suggéré – exigeant probablement une mobilisation et une réponse de l’ensemble de la société pour déterminer et faire respecter les limites.
« Des recherches et des débats très importants doivent avoir lieu – également avec la société civile et les gouvernements, et pas seulement avec les entreprises technologiques », a-t-il déclaré. « C’est une question sociale et technique qui concerne tout le monde et qui devrait impliquer tout le monde pour en discuter. Quelles valeurs voulons-nous que ces systèmes aient ? Que représenteraient-ils ? Comment empêcher les mauvais acteurs d’accéder aux mêmes technologies et, ce dont vous parlez, de les réutiliser à des fins nuisibles qui n’étaient pas prévues par les créateurs de ces systèmes.
Abordant le défi des modèles d’IA open source à usage général, que Google propose également, il a ajouté : « Les clients veulent utiliser des systèmes open source qu’ils peuvent entièrement contrôler. . . Mais alors la question se pose : comment garantir que ce que les gens utilisent en aval ne sera pas nocif avec ces systèmes à mesure qu’ils deviennent de plus en plus puissants ?
« Je pense qu’aujourd’hui, ce n’est pas un problème car les systèmes sont encore relativement balbutiants. Mais si vous avancez trois, quatre ou cinq ans et que vous commencez à parler de systèmes de nouvelle génération dotés de capacités de planification et capables d’agir dans le monde et de résoudre des problèmes et des objectifs, je pense que la société doit vraiment réfléchir sérieusement à ces questions – de que se passera-t-il si cela se multiplie, et que de mauvais acteurs, depuis les individus jusqu’aux États voyous, pourront également les utiliser.
Au cours de l’interview, Hassabis a également été interrogé sur ses réflexions sur les appareils d’IA et sur la direction que pourrait prendre le marché mobile alors que l’IA générative continue de stimuler de nouveaux développements ici. Il a prédit une vague d’« assistants intelligents de nouvelle génération » utiles dans la vie quotidienne des gens, plutôt que les trucs « fantaisistes » des générations précédentes d’assistants IA, qui, selon lui, pourraient même remodeler le matériel mobile que les gens choisissent d’emporter sur eux.
«Je pense même qu’il y aura des questions sur le type d’appareil approprié», a-t-il suggéré. « Mais dans plus de cinq ans, le téléphone sera-t-il vraiment le facteur de forme parfait ? Peut-être avons-nous besoin de lunettes ou d’autres choses pour que le système d’IA puisse réellement voir un peu le contexte dans lequel vous vous trouvez et ainsi être encore plus utile dans votre vie quotidienne. Je pense donc qu’il y a toutes sortes de choses étonnantes à inventer.