Des ensembles de données de formation massifs sont la passerelle vers de puissants modèles d’IA, mais souvent aussi la chute de ces modèles.
Les préjugés émergent de schémas préjudiciables dissimulés dans de vastes ensembles de données, comme les photos de PDG majoritairement blancs dans un ensemble de classification d’images. Et les grands ensembles de données peuvent être compliqués, car ils se présentent dans des formats incompréhensibles pour un modèle – des formats contenant beaucoup de bruit et d’informations superflues.
Dans une récente enquête de Deloitte auprès des entreprises qui adoptent l’IA, 40 % d’entre elles ont déclaré que les défis liés aux données, notamment la préparation et le nettoyage minutieux des données, figuraient parmi les principales préoccupations entravant leurs initiatives en matière d’IA. Un sondage distinct auprès des data scientists a révélé qu’environ 45 % du temps des scientifiques est consacré à des tâches de préparation des données, comme le « chargement » et le nettoyage des données.
Ari Morcos, qui travaille dans l’industrie de l’IA depuis près d’une décennie, souhaite éliminer de nombreux processus de préparation de données autour de la formation des modèles d’IA – et il a fondé une startup dans ce but.
La société de Morcos, DatologyAI, crée des outils pour organiser automatiquement des ensembles de données tels que ceux utilisés pour former ChatGPT d’OpenAI, Gemini de Google et d’autres modèles similaires à GenAI. La plate-forme peut identifier quelles données sont les plus importantes en fonction de l’application d’un modèle (par exemple, écrire des e-mails), affirme Morcos, en plus de la manière dont l’ensemble de données peut être complété par des données supplémentaires et de la manière dont il doit être regroupé ou divisé en morceaux plus faciles à gérer. formation sur modèle.
« Les modèles sont ce qu’ils mangent – les modèles sont le reflet des données sur lesquelles ils sont formés », a déclaré Morcos à TechCrunch dans une interview par courrier électronique. « Cependant, toutes les données ne sont pas égales et certaines données de formation sont bien plus utiles que d’autres. Former des modèles sur les bonnes données et de la bonne manière peut avoir un impact considérable sur le modèle résultant.
Morcos, titulaire d’un doctorat en neurosciences de Harvard, a passé deux ans à DeepMind à appliquer des techniques inspirées de la neurologie pour comprendre et améliorer les modèles d’IA et cinq ans au laboratoire d’IA de Meta à découvrir certains des mécanismes de base sous-jacents aux fonctions des modèles. Avec ses co-fondateurs Matthew Leavitt et Bogdan Gaza, ancien responsable de l’ingénierie chez Amazon puis Twitter, Morcos a lancé DatologyAI dans le but de rationaliser toutes les formes de conservation d’ensembles de données d’IA.
Comme le souligne Morcos, la composition d’un ensemble de données de formation a un impact sur presque toutes les caractéristiques d’un modèle formé sur celui-ci, depuis les performances du modèle sur les tâches jusqu’à sa taille et la profondeur de sa connaissance du domaine. Des ensembles de données plus efficaces peuvent réduire le temps de formation et produire un modèle plus petit, ce qui permet d’économiser sur les coûts de calcul, tandis que les ensembles de données qui incluent une gamme particulièrement diversifiée d’échantillons peuvent gérer plus efficacement les demandes ésotériques (d’une manière générale).
Alors que l’intérêt pour GenAI – qui a la réputation d’être coûteux – atteint un niveau sans précédent, les coûts de mise en œuvre de l’IA sont au premier plan des préoccupations des dirigeants.
De nombreuses entreprises choisissent d’affiner les modèles existants (y compris les modèles open source) en fonction de leurs besoins ou optent pour des services de fournisseurs gérés via des API. Mais certains – pour des raisons de gouvernance et de conformité ou autres – créent des modèles à partir de données personnalisées à partir de zéro et dépensent des dizaines de milliers, voire des millions de dollars en calcul afin de les former et de les exécuter.
« Les entreprises ont collecté des trésors de données et souhaitent former des modèles d’IA efficaces, performants et spécialisés qui peuvent maximiser les avantages pour leur entreprise », a déclaré Morcos. « Cependant, utiliser efficacement ces ensembles de données massifs est incroyablement difficile et, s’il n’est pas fait correctement, conduit à des modèles moins performants qui prennent plus de temps à s’entraîner et à s’entraîner. [are larger] que nécessaire. »
DatologyAI peut évoluer jusqu’à des « pétaoctets » de données dans n’importe quel format — qu’il s’agisse de texte, d’images, de vidéo, d’audio, de tableaux ou de modalités plus « exotiques » telles que la génomique et la géospatiale — et se déploie sur l’infrastructure d’un client, soit sur site, soit via un cloud privé virtuel. Cela le distingue des autres outils de préparation et de conservation des données comme CleanLab, Lilac, Labelbox, YData et Galileo, affirme Morcos, qui ont tendance à être plus limités dans la portée et les types de données qu’ils peuvent traiter.
DatologyAI est également capable de déterminer quels « concepts » au sein d’un ensemble de données (par exemple, les concepts liés à l’histoire des États-Unis dans un ensemble de formation de chatbot éducatif) sont plus complexes et nécessitent donc des échantillons de meilleure qualité, ainsi que quelles données pourraient provoquer le comportement d’un modèle. de manière involontaire.
« Résoudre [these problems] nécessite d’identifier automatiquement les concepts, leur complexité et le degré de redondance réellement nécessaire », a déclaré Morcos. « L’augmentation des données, souvent à l’aide d’autres modèles ou de données synthétiques, est incroyablement puissante, mais doit être effectuée de manière prudente et ciblée.
La question est de savoir quelle est l’efficacité de la technologie de DatologyAI ? Il y a des raisons d’être sceptique. L’histoire a montré que la conservation automatisée des données ne fonctionne pas toujours comme prévu, quelle que soit la sophistication de la méthode ou la diversité des données.
LAION, une organisation allemande à but non lucratif à la tête d’un certain nombre de projets GenAI, a été contrainte de supprimer un ensemble de données de formation à l’IA organisées de manière algorithmique après avoir découvert que l’ensemble contenait des images d’abus sexuels sur des enfants. Ailleurs, il a été démontré que des modèles tels que ChatGPT, qui sont formés sur un mélange d’ensembles de données filtrés manuellement et automatiquement pour la toxicité, génèrent du contenu toxique à la suite d’invites spécifiques.
Il n’y a pas moyen d’échapper à la curation manuelle, diraient certains experts – du moins pas si l’on espère obtenir de bons résultats avec un modèle d’IA. Les plus grands fournisseurs actuels, d’AWS à Google en passant par OpenAI, s’appuient sur des équipes d’experts humains et d’annotateurs (parfois sous-payés) pour façonner et affiner leurs ensembles de données de formation.
Morcos insiste sur le fait que les outils de DatologyAI ne sont pas destinés à remplacer la curation manuelle, mais proposent plutôt des suggestions qui pourraient ne pas venir à l’esprit des data scientists, en particulier des suggestions tangentes au problème de la réduction de la taille des ensembles de données d’entraînement. Il fait en quelque sorte autorité : la réduction des ensembles de données tout en préservant les performances du modèle était au centre d’un article universitaire. Morcos a co-écrit avec des chercheurs de Stanford et de l’Université de Tübingen en 2022, qui a remporté le prix du meilleur article lors de la conférence sur l’apprentissage automatique NeurIPS cette année-là.
« Identifier les bonnes données à grande échelle est extrêmement difficile et constitue un problème de recherche de pointe », a déclaré Morcos. « [Our approach] conduit à des modèles qui s’entraînent considérablement plus rapidement tout en augmentant simultanément les performances sur les tâches en aval.
La technologie de DatologyAI était évidemment suffisamment prometteuse pour convaincre les titans de la technologie et de l’IA d’investir dans le cycle de démarrage de la startup, notamment le scientifique en chef de Google Jeff Dean, le scientifique en chef de l’IA de Meta Yann LeCun, le fondateur de Quora et membre du conseil d’administration d’OpenAI Adam D’Angelo et Geoffrey Hinton, qui est crédité du développement de certaines des techniques les plus importantes au cœur de l’IA moderne.
Les autres investisseurs providentiels dans l’amorçage de 11,65 millions de dollars de DatologyAI, dirigé par Amplify Partners avec la participation de Radical Ventures, Conviction Capital, Outset Capital et Quiet Capital, étaient les cofondateurs de Cohere Aidan Gomez et Ivan Zhang, le fondateur de Contextual AI Douwe Kiela, ex-Intel. Naveen Rao, vice-président de l’IA, et Jascha Sohl-Dickstein, l’un des inventeurs des modèles de diffusion générative. Il s’agit d’une liste pour le moins impressionnante de sommités de l’IA – et suggère qu’il pourrait y avoir quelque chose dans les affirmations de Morcos.
« Les modèles sont aussi bons que les données sur lesquelles ils sont formés, mais identifier les bonnes données de formation parmi des milliards ou des milliards d’exemples est un problème incroyablement difficile », a déclaré LeCun à TechCrunch dans une déclaration envoyée par courrier électronique. « Ari et son équipe de DatologyAI font partie des experts mondiaux sur ce problème, et je pense que le produit qu’ils construisent pour mettre la conservation de données de haute qualité à la disposition de toute personne souhaitant former un modèle est d’une importance vitale pour contribuer au fonctionnement de l’IA. pour tout le monde. »
DatologyAI, basée à San Francisco, compte actuellement 10 employés, y compris les cofondateurs, mais prévoit de s’étendre à environ 25 employés d’ici la fin de l’année si elle atteint certains jalons de croissance.
J’ai demandé à Morcos si les étapes étaient liées à l’acquisition de clients, mais il a refusé de le dire – et, assez mystérieusement, n’a pas révélé la taille de la clientèle actuelle de DatologyAI.