Les systèmes de génération de code tels que DeepMind’s AlphaCode, Amazon’s CodeWhisperer et OpenAI’s Codex, qui alimente le service Copilot de GitHub, offrent un aperçu alléchant de ce qui est possible avec l’IA aujourd’hui dans le domaine de la programmation informatique. Mais jusqu’à présent, seule une poignée de ces systèmes d’IA ont été mis gratuitement à la disposition du public et en open source, ce qui reflète les incitations commerciales des entreprises qui les construisent.
Dans le but de changer cela, la startup d’IA Hugging Face et ServiceNow Research, la division R&D de ServiceNow, ont lancé aujourd’hui BigCode, un nouveau projet qui vise à développer des systèmes d’IA « à la pointe de la technologie » pour le code dans un environnement « ouvert et responsable ». façon. L’objectif est de publier à terme un ensemble de données suffisamment volumineux pour former un système de génération de code, qui sera ensuite utilisé pour créer un prototype – un modèle de 15 milliards de paramètres, plus grand que Codex (12 milliards de paramètres) mais plus petit qu’AlphaCode (~41,4 milliards de paramètres) – en utilisant le cluster de cartes graphiques interne de ServiceNow. Dans l’apprentissage automatique, les paramètres sont les parties d’un système d’IA apprises à partir de données de formation historiques et définissent essentiellement la compétence du système sur un problème, tel que la génération de code.
Inspiré par les efforts de BigScience de Hugging Face pour ouvrir des systèmes de génération de texte hautement sophistiqués, BigCode sera ouvert à toute personne ayant une formation professionnelle en recherche sur l’IA et pouvant consacrer du temps au projet, déclarent les organisateurs. Le formulaire de candidature a été mis en ligne cet après-midi.
«En général, nous attendons des candidats qu’ils soient affiliés à un organisme de recherche (universitaire ou industriel) et qu’ils travaillent sur les aspects techniques / éthiques / juridiques de [large language models] pour coder des applications », a écrit ServiceNow dans un article de blog. « Une fois la [code-generating system] est formé, nous évaluerons ses capacités … Nous nous efforcerons de rendre l’évaluation plus facile et plus large afin que nous puissions en savoir plus sur le [system’s] capacités. »
En développant en collaboration un système de génération de code, qui sera open source sous une licence qui permettra aux développeurs de le réutiliser sous réserve de certaines conditions générales, BigCode cherche à résoudre certaines des controverses qui ont surgi autour de la pratique de l’IA- génération de code motorisée – en particulier en ce qui concerne l’utilisation équitable. L’organisation à but non lucratif Software Freedom Conservancy, entre autres, a critiqué GitHub et OpenAI pour avoir utilisé du code source public, dont tous ne sont pas sous licence permissive, pour former et monétiser Codex. Codex est disponible via l’API payante d’OpenAI, tandis que GitHub a récemment commencé à facturer l’accès à Copilot. Pour leur part, GitHub et OpenAI continuent d’affirmer que Codex et Copilot ne vont à l’encontre d’aucune condition de licence.
Les organisateurs de BigCode disent qu’ils s’efforceront de s’assurer que seuls les fichiers des référentiels avec des licences permissives entrent dans l’ensemble de données de formation susmentionné. En cours de route, disent-ils, ils travailleront à établir des pratiques d’IA «responsables» pour la formation et le partage de systèmes générateurs de code de tous types, en sollicitant les commentaires des parties prenantes concernées avant de prendre des décisions politiques.
ServiceNow et Hugging Face n’ont fourni aucun calendrier quant à la date d’achèvement du projet. Mais ils s’attendent à ce qu’il explore plusieurs formes de génération de code au cours des prochains mois, y compris des systèmes qui complètent automatiquement et synthétisent le code à partir d’extraits de code et de descriptions en langage naturel et fonctionnent dans un large éventail de domaines, de tâches et de langages de programmation.
En supposant que les problèmes éthiques, techniques et juridiques soient un jour résolus, les outils de codage basés sur l’IA pourraient réduire considérablement les coûts de développement tout en permettant aux codeurs de se concentrer sur des tâches plus créatives. Selon une étude de l’Université de Cambridge, au moins la moitié des efforts des développeurs sont consacrés au débogage et non à la programmation active, ce qui coûte à l’industrie du logiciel environ 312 milliards de dollars par an.