Mercredi, Databricks a publié Dolly 2.0, qui serait le premier modèle de langage large (LLM) open source suivant les instructions à usage commercial qui a été affiné sur un ensemble de données générées par l’homme. Cela pourrait servir de point de départ convaincant pour les concurrents homebrew ChatGPT.
Databricks est une société américaine de logiciels d’entreprise fondée en 2013 par les créateurs d’Apache Spark. Ils fournissent une plate-forme Web pour travailler avec Spark pour le Big Data et l’apprentissage automatique. En publiant Dolly, Databricks espère permettre aux organisations de créer et de personnaliser des LLM « sans payer pour l’accès à l’API ni partager de données avec des tiers », selon le billet de blog de lancement de Dolly.
Dolly 2.0, son nouveau modèle de 12 milliards de paramètres, est basé sur la famille de modèles pythia d’EleutherAI et exclusivement affiné sur les données de formation (appelées « databricks-dolly-15k ») provenant des employés de Databricks. Ce calibrage lui donne des capacités plus conformes au ChatGPT d’OpenAI, qui est meilleur pour répondre aux questions et engager le dialogue en tant que chatbot qu’un LLM brut qui n’a pas été affiné.
Dolly 1.0, sorti en mars, était confronté à des limitations concernant l’utilisation commerciale en raison des données de formation, qui contenaient la sortie de ChatGPT (grâce à Alpaca) et étaient soumises aux conditions d’utilisation d’OpenAI. Pour résoudre ce problème, l’équipe de Databricks a cherché à créer un nouvel ensemble de données qui permettrait une utilisation commerciale.
Pour ce faire, Databricks a organisé 13 000 démonstrations de comportement de suivi des instructions de la part de plus de 5 000 de ses employés entre mars et avril 2023. Pour inciter à la participation, ils ont organisé un concours et décrit sept tâches spécifiques pour la génération de données, y compris les questions-réponses ouvertes, les questions-réponses fermées. , extraction et synthèse d’informations de Wikipédia, brainstorming, classification et écriture créative.
L’ensemble de données résultant, ainsi que les poids du modèle et le code de formation de Dolly, ont été publiés entièrement en open source sous une licence Creative Commons, permettant à quiconque d’utiliser, de modifier ou d’étendre l’ensemble de données à n’importe quelle fin, y compris des applications commerciales.
En revanche, ChatGPT d’OpenAI est un modèle propriétaire qui oblige les utilisateurs à payer pour l’accès à l’API et à respecter des conditions de service spécifiques, ce qui limite potentiellement la flexibilité et les options de personnalisation pour les entreprises et les organisations. Le LLaMA de Meta, un modèle partiellement open source (avec des poids restreints) qui a récemment engendré une vague de produits dérivés après la fuite de ses poids sur BitTorrent, ne permet pas une utilisation commerciale.
Sur Mastodon, le chercheur en intelligence artificielle Simon Willison a qualifié Dolly 2.0 de « très important ». Willison expérimente souvent des modèles de langage open source, y compris Dolly. « L’une des choses les plus excitantes à propos de Dolly 2.0 est le jeu d’instructions de réglage fin, qui a été fabriqué à la main par 5 000 employés de Databricks et publié sous une licence CC », a écrit Willison dans un toot Mastodon.
Si la réaction enthousiaste au seul modèle LLaMA partiellement ouvert de Meta est une indication, Dolly 2.0 pourrait potentiellement déclencher une nouvelle vague de modèles de langage open source qui ne sont pas entravés par des limitations propriétaires ou des restrictions d’utilisation commerciale. Alors que le mot est encore sur le réel de Dolly capacité de performanced’autres améliorations pourraient permettre d’exécuter des LLM raisonnablement puissants sur des machines grand public locales.
« Même si Dolly 2 n’est pas bon, je pense que nous verrons bientôt un tas de nouveaux projets utilisant ces données de formation », a déclaré Willison à Ars. « Et certains d’entre eux pourraient produire quelque chose de vraiment utile. »
Actuellement, les poids Dolly sont disponibles sur Hugging Face, et l’ensemble de données databricks-dolly-15k se trouve sur GitHub.