ChatGPT a pris le monde d’assaut. Dans les deux mois suivant sa sortie, il a atteint 100 millions d’utilisateurs actifs, ce qui en fait l’application grand public à la croissance la plus rapide jamais lancée. Les utilisateurs sont attirés par les capacités avancées de l’outil et préoccupés par son potentiel de perturbation dans divers secteurs.
Une implication beaucoup moins discutée est les risques de confidentialité que ChatGPT pose à chacun d’entre nous. Pas plus tard qu’hier, Google a dévoilé sa propre IA conversationnelle appelée Bard, et d’autres suivront sûrement. Les entreprises technologiques travaillant sur l’IA sont bel et bien entrées dans une course aux armements.
Le problème est qu’il est alimenté par nos données personnelles.
300 milliards de mots. Combien sont les vôtres ?
ChatGPT est soutenu par un grand modèle de langage qui nécessite d’énormes quantités de données pour fonctionner et s’améliorer. Plus le modèle est entraîné sur de données, plus il parvient à détecter des modèles, à anticiper ce qui va suivre et à générer un texte plausible.
OpenAI, la société à l’origine de ChatGPT, a alimenté l’outil avec quelque 300 milliards de mots systématiquement extraits d’Internet : livres, articles, sites Web et publications, y compris des informations personnelles obtenues sans consentement.
Si vous avez déjà écrit un article de blog ou une critique de produit, ou commenté un article en ligne, il y a de fortes chances que ces informations aient été consommées par ChatGPT.
Alors pourquoi est-ce un problème?
La collecte de données utilisée pour former ChatGPT est problématique pour plusieurs raisons.
Tout d’abord, aucun d’entre nous n’a été demandé si OpenAI pouvait utiliser nos données. Il s’agit d’une violation manifeste de la vie privée, en particulier lorsque les données sont sensibles et peuvent être utilisées pour nous identifier, les membres de notre famille ou notre emplacement.
Même lorsque les données sont accessibles au public, leur utilisation peut porter atteinte à ce que nous appelons l’intégrité contextuelle. Il s’agit d’un principe fondamental dans les discussions juridiques sur la vie privée. Elle exige que les informations des individus ne soient pas révélées en dehors du contexte dans lequel elles ont été initialement produites.
De plus, OpenAI ne propose aucune procédure permettant aux particuliers de vérifier si l’entreprise stocke leurs informations personnelles ou de demander leur suppression. Il s’agit d’un droit garanti conformément au Règlement général européen sur la protection des données (RGPD) – bien que la question de savoir si ChatGPT est conforme aux exigences du RGPD fait encore l’objet d’un débat.
Ce « droit à l’oubli » est particulièrement important dans les cas où les informations sont inexactes ou trompeuses, ce qui semble être un phénomène courant avec ChatGPT.
De plus, les données récupérées sur lesquelles ChatGPT a été formé peuvent être propriétaires ou protégées par des droits d’auteur. Par exemple, lorsque je l’ai demandé, l’outil a produit les premiers paragraphes du roman de Peter Carey « True History of the Kelly Gang » – un texte protégé par le droit d’auteur.
Enfin, OpenAI n’a pas payé pour les données extraites d’Internet. Les particuliers, les propriétaires de sites Web et les entreprises qui l’ont produit n’ont pas été indemnisés. Ceci est particulièrement remarquable étant donné qu’OpenAI a récemment été évalué à 29 milliards de dollars américains, soit plus du double de sa valeur en 2021.
OpenAI vient également d’annoncer ChatGPT Plus, un plan d’abonnement payant qui offrira aux clients un accès continu à l’outil, des temps de réponse plus rapides et un accès prioritaire aux nouvelles fonctionnalités. Ce plan contribuera aux revenus attendus de 1 milliard de dollars d’ici 2024.
Rien de tout cela n’aurait été possible sans les données – nos données – collectées et utilisées sans notre permission.
Une politique de confidentialité fragile
Un autre risque de confidentialité concerne les données fournies à ChatGPT sous la forme d’invites d’utilisateur. Lorsque nous demandons à l’outil de répondre à des questions ou d’effectuer des tâches, nous pouvons par inadvertance transmettre des informations sensibles et les mettre dans le domaine public.
Par exemple, un avocat peut demander à l’outil d’examiner un projet d’accord de divorce, ou un programmeur peut lui demander de vérifier un morceau de code. L’accord et le code, en plus des essais produits, font désormais partie de la base de données de ChatGPT. Cela signifie qu’ils peuvent être utilisés pour former davantage l’outil et être inclus dans les réponses aux invites d’autres personnes.
Au-delà de cela, OpenAI rassemble un large éventail d’autres informations sur les utilisateurs. Selon la politique de confidentialité de l’entreprise, elle collecte l’adresse IP des utilisateurs, le type et les paramètres du navigateur, ainsi que des données sur les interactions des utilisateurs avec le site, y compris le type de contenu avec lequel les utilisateurs interagissent, les fonctionnalités qu’ils utilisent et les actions qu’ils entreprennent.
Il collecte également des informations sur les activités de navigation des utilisateurs au fil du temps et sur les sites Web. De manière alarmante, OpenAI déclare qu’il peut partager les informations personnelles des utilisateurs avec des tiers non spécifiés, sans les en informer, pour atteindre leurs objectifs commerciaux.
Il est temps de le maîtriser ?
Certains experts pensent que ChatGPT est un point de basculement pour l’IA, une réalisation du développement technologique qui peut révolutionner notre façon de travailler, d’apprendre, d’écrire et même de penser. Nonobstant ses avantages potentiels, nous devons nous rappeler qu’OpenAI est une entreprise privée à but lucratif dont les intérêts et les impératifs commerciaux ne correspondent pas nécessairement aux besoins sociétaux plus importants.
Les risques de confidentialité liés à ChatGPT devraient sonner comme un avertissement. Et en tant que consommateurs d’un nombre croissant de technologies d’IA, nous devons être extrêmement prudents quant aux informations que nous partageons avec ces outils.
The Conversation a contacté OpenAI pour obtenir des commentaires, mais ils n’ont pas répondu dans les délais.
Uri Gal est professeur en systèmes d’information d’entreprise à l’Université de Sydney
Cet article est republié de The Conversation sous une licence Creative Commons. Lire l’article d’origine.