AI2 abandonne le plus grand ensemble de données ouvertes à ce jour pour les modèles de langage de formation

Les modèles de langage comme GPT-4 et Claude sont puissants et utiles, mais les données sur lesquelles ils sont formés sont un secret bien gardé. L’Allen Institute for AI (AI2) vise à inverser cette tendance avec un nouvel ensemble de données textuelles énorme, libre d’utilisation et ouvert à l’inspection.

Dolma, comme l’ensemble de données est appelé, est destiné à servir de base au modèle de langage ouvert prévu par le groupe de recherche, ou OLMo (Dolma est l’abréviation de « Data to feed OLMo’s Appetite »). Comme le modèle est censé être libre d’utilisation et de modification par la communauté de recherche en IA, il en va de même (selon les chercheurs en IA2) de l’ensemble de données qu’ils utilisent pour le créer.

Il s’agit du premier « artefact de données » mis à disposition par AI2 concernant OLMo, et dans un article de blog, Luca Soldaini de l’organisation explique le choix des sources et la justification des divers processus utilisés par l’équipe pour le rendre acceptable pour la consommation d’IA. (« Un article plus complet est en préparation », notent-ils d’emblée.)

Bien que des entreprises comme OpenAI et Meta publient certaines des statistiques vitales des ensembles de données qu’elles utilisent pour créer leurs modèles de langage, une grande partie de ces informations est traitée comme exclusive. Outre la conséquence connue de décourager l’examen et l’amélioration en général, il y a des spéculations selon lesquelles cette approche fermée est peut-être due au fait que les données ne sont pas obtenues de manière éthique ou légale : par exemple, que des copies piratées de nombreux livres d’auteurs sont ingérées.

Vous pouvez voir dans ce graphique créé par AI2 que les modèles les plus importants et les plus récents ne fournissent qu’une partie des informations qu’un chercheur souhaiterait probablement connaître sur un ensemble de données donné. Quelles informations ont été supprimées et pourquoi ? Qu’est-ce qui était considéré comme un texte de haute ou de mauvaise qualité ? Les données personnelles ont-elles été supprimées de manière appropriée ?

Graphique montrant l’ouverture ou l’absence d’ouverture de différents ensembles de données. Crédits image : AI2

Bien sûr, il est de la prérogative de ces entreprises, dans le contexte d’un paysage IA fortement concurrentiel, de garder les secrets des processus de formation de leurs modèles. Mais pour les chercheurs extérieurs aux entreprises, cela rend ces ensembles de données et modèles plus opaques et difficiles à étudier ou à reproduire.

Le Dolma d’AI2 est destiné à être le contraire de ceux-ci, avec toutes ses sources et processus – disons, comment et pourquoi il a été découpé en textes originaux en anglais – documentés publiquement.

Ce n’est pas le premier à essayer le jeu de données ouvert, mais c’est de loin le plus grand (3 milliards de jetons, une mesure native de l’IA du volume de contenu) et, selon eux, le plus simple en termes d’utilisation et d’autorisations. Il utilise la « licence ImpACT pour les artefacts à risque moyen », dont vous pouvez voir les détails ici. Mais essentiellement, les utilisateurs potentiels de Dolma doivent :

  • Fournir les coordonnées et les cas d’utilisation prévus
  • Divulguer toute création dérivée de Dolma
  • Distribuer ces produits dérivés sous la même licence
  • Accepter de ne pas appliquer Dolma dans divers domaines interdits, tels que la surveillance ou la désinformation

Pour ceux qui craignent que malgré les meilleurs efforts d’AI2, certaines de leurs données personnelles puissent être entrées dans la base de données, un formulaire de demande de suppression est disponible ici. C’est pour des cas spécifiques, pas seulement une chose générale « ne m’utilisez pas ».

Si tout cela vous convient, l’accès à Dolma est disponible via Hugging Face.

Source-146