Que savent les chatbots IA de nous et avec qui les partagent-ils ?

Les chatbots IA sont relativement anciens selon les normes technologiques, mais la nouvelle génération – dirigée par ChatGPT d’OpenAI et Bard de Google – est beaucoup plus capable que leurs ancêtres, pas toujours pour des raisons positives. La récente explosion du développement de l’IA a déjà suscité des inquiétudes concernant la désinformation, la désinformation, le plagiat et les logiciels malveillants générés par des machines. Quels problèmes l’IA générative pourrait-elle poser pour la vie privée de l’internaute moyen ? La réponse, selon les experts, dépend en grande partie de la manière dont ces bots sont formés et de la quantité d’interactions que nous prévoyons d’avoir avec eux.

Afin de reproduire les interactions de type humain, les chatbots IA sont formés sur des quantités massives de données, dont une partie importante provient de référentiels comme Common Crawl. Comme son nom l’indique, Common Crawl a amassé des années et des pétaoctets de données simplement en explorant et en grattant le Web ouvert. « Ces modèles s’entraînent sur de grands ensembles de données accessibles au public sur Internet », a déclaré Megha Srivastava, doctorante au département d’informatique de Stanford et ancienne résidente en IA chez Microsoft Research. Même si ChatGPT et Bard utilisent ce qu’ils appellent une partie « filtrée » des données de Common Crawl, la taille même du modèle rend « impossible pour quiconque de parcourir les données et de les assainir », selon Srivastava.

Soit par votre propre négligence, soit par les mauvaises pratiques de sécurité d’un tiers, cela pourrait se trouver actuellement dans un coin reculé d’Internet. Même s’il peut être difficile d’y accéder pour l’utilisateur moyen, il est possible que des informations aient été récupérées dans un ensemble de formation et puissent être régurgitées par ce chatbot sur toute la ligne. Et un bot crachant les informations de contact réelles de quelqu’un n’est en aucun cas une préoccupation théorique. Bloomberg Le chroniqueur Dave Lee a posté sur Twitter que, lorsque quelqu’un a demandé à ChatGPT de discuter sur la plate-forme de messagerie cryptée Signal, il a fourni son numéro de téléphone exact. Ce type d’interaction est probablement un cas limite, mais les informations auxquelles ces modèles d’apprentissage ont accès méritent toujours d’être prises en compte. « Il est peu probable qu’OpenAI veuille collecter des informations spécifiques telles que des données de santé et les attribuer à des individus afin de former ses modèles », a déclaré à Engadget David Hoelzer, membre de l’organisation de sécurité SANS Institute. «Mais pourrait-il être là par inadvertance? Absolument. »

Open AI, la société à l’origine de ChatGPT, n’a pas répondu lorsque nous lui avons demandé quelles mesures elle prenait pour protéger la confidentialité des données ou comment elle gérait les informations personnellement identifiables susceptibles d’être intégrées dans ses ensembles de formation. Nous avons donc fait la meilleure chose à faire et avons demandé à ChatGPT lui-même. Il nous a dit qu’il est « programmé pour suivre les normes éthiques et juridiques qui protègent la vie privée et les informations personnelles des utilisateurs » et qu’il « n’a pas accès aux informations personnelles à moins qu’elles ne me soient fournies ». Google, pour sa part, a déclaré à Engadget qu’il avait programmé des garde-corps similaires dans Bard pour empêcher le partage d’informations personnellement identifiables pendant les conversations.

Utilement, ChatGPT a évoqué le deuxième vecteur majeur par lequel l’IA générative pourrait poser un risque pour la vie privée : l’utilisation du logiciel lui-même – soit via des informations partagées directement dans les journaux de discussion, soit via des informations sur l’appareil et l’utilisateur capturées par le service pendant son utilisation. La politique de confidentialité d’OpenAI cite plusieurs catégories d’informations standard qu’elle collecte sur les utilisateurs, qui pourraient être identifiables, et lors de son démarrage, ChatGPT avertit que les conversations peuvent être examinées par ses formateurs en IA pour améliorer les systèmes.

Google’s Bard, quant à lui, n’a pas de politique de confidentialité autonome, mais utilise à la place le document général de confidentialité partagé par d’autres produits Google (et qui se trouve être extrêmement large). Les conversations avec Bard n’ont pas besoin d’être enregistrées sur le compte Google de l’utilisateur, et les utilisateurs peuvent supprimer les conversations via Google, a déclaré la société à Engadget. « Afin d’établir et de maintenir la confiance des utilisateurs, ils devront être très transparents en ce qui concerne les politiques de confidentialité et les procédures de protection des données au début », a déclaré Rishi Jaitly, professeur et éminent chercheur en sciences humaines à Virginia Tech, à Engadget.

En dépit d’avoir une action « effacer les conversations », appuyer sur cela ne supprime pas réellement vos données, selon la page FAQ du service, et OpenAI n’est pas non plus en mesure de supprimer des invites spécifiques. Bien que la société décourage les utilisateurs de partager quoi que ce soit de sensible, apparemment le seul moyen de supprimer les informations d’identification personnelles fournies à ChatGPT est de supprimer votre compte, ce qui, selon la société, supprimera définitivement toutes les données associées.

Hoelzer a déclaré à Engadget qu’il ne s’inquiétait pas que ChatGPT ingère des conversations individuelles pour apprendre. Mais ces données de conversation sont stockées quelque part, et leur sécurité devient donc une préoccupation raisonnable. Incidemment, ChatGPT a été brièvement mis hors ligne en mars car une erreur de programmation a révélé des informations sur l’historique des discussions des utilisateurs. Il n’est pas clair à ce stade de leur déploiement à grande échelle si les journaux de discussion de ces types d’IA deviendront des cibles précieuses pour les acteurs malveillants.

Dans un avenir prévisible, il est préférable de traiter ces types de chatbots avec le même soupçon que les utilisateurs devraient traiter tout autre produit technologique. « Un utilisateur jouant avec ces modèles devrait entrer dans l’attente que toute interaction qu’il a avec le modèle », a déclaré Srivastava à Engadget, « c’est un jeu équitable pour Open AI ou l’une de ces autres sociétés à utiliser à leur avantage. »

Tous les produits recommandés par Engadget sont sélectionnés par notre équipe éditoriale, indépendante de notre maison mère. Certaines de nos histoires incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, nous pouvons gagner une commission d’affiliation. Tous les prix sont corrects au moment de la publication.

Source-145