OpenAI souhaite travailler avec les organisations pour créer de nouveaux ensembles de données de formation à l’IA

déploie un nouveau programme de partenariat pour collecter des ensembles de données auprès de tiers qu’il a l’intention d’utiliser pour entraîner ses modèles d’IA. L’initiative, OpenAI Data Partnerships, recherchera des informations privées et publiques à grande échelle qui, selon elle, « ne sont pas déjà facilement accessibles au public en ligne ». L’entreprise affirme que les données qu’elle collectera ne doivent pas nécessairement être quantitatives ou au format texte : le programme acceptera également les images, l’audio ou la vidéo.

L’entreprise affirme notamment qu’elle est à la recherche de données sur « n’importe quel sujet » et dans « n’importe quelle langue » tant qu’elles « expriment une intention humaine », ce qu’elle compare à de longs essais ou à des conversations transcrites. Les données centrées sur l’humain collectées par OpenAI devraient aider l’entreprise à améliorer des outils comme son système automatique utilisé pour transcrire les mots prononcés. Cette initiative s’inscrit également dans la récente expansion de ChatGPT pour prendre en charge pour interagir avec les utilisateurs de manière conversationnelle. Exposer ses modèles d’IA à davantage d’informations qui lui apprennent à tenir le coup ne fera qu’améliorer encore cette fonctionnalité et d’autres outils qui suivront en fonction.

Les tests de modèles menés tout au long du programme de partenariat de données élargiront également naturellement les capacités du service client d’OpenAI, qui a été mis à jour pour fournir aux utilisateurs des réponses plus complexes et plus significatives. OpenAI affirme avoir déjà commencé à travailler avec les organisations intéressées, y compris des organismes faisant autorité comme le gouvernement islandais. Grâce à des ensembles de données organisés, OpenAI affirme travailler à améliorer la capacité de GPT-4 à comprendre les requêtes effectuées en langue islandaise.

Si une organisation privée ou publique souhaite participer au programme, un représentant peut soumettre sur le site Web de l’entreprise et partager des informations sur le type et la taille des données qu’il a l’intention de partager. Il existe deux voies pour les ensembles de données. La première est l’archive Open-Source, idéale pour les ensembles de données pertinents pour la formation des modèles de langage. Cependant, les soumissions qui y seront faites seront publiques et pourront être utilisées par tous. Alternativement, OpenAI indique qu’une entreprise peut soumettre des informations via son chemin d’ensemble de données privé qui seront canalisées pour former des modèles d’IA propriétaires, qui, selon l’entreprise, incluent leurs « modèles de base » et « modèles affinés et personnalisés ». Ceci est recommandé aux entreprises ou institutions qui souhaitent garder leurs données confidentielles. Mais à cet égard, OpenAI affirme ne pas rechercher d’ensembles de données contenant des informations sensibles ou personnelles.

ChatGPT a déjà établi des records pour sa base d’utilisateurs en plein essor. Il existe partout dans le monde, mais le sens continuera à être le point central de l’outil. Auparavant, les employés de Samsung étaient sur la sellette en raison du modèle IA. Bien qu’elle n’utilise pas les données générées par son API pour entraîner ses modèles, à moins qu’un utilisateur ne soumette explicitement des informations via un formulaire d’inscription, tous les regards seront tournés vers la manière dont l’entreprise gère les données collectées grâce à cette initiative, en particulier les ensembles de données privés.

Source-145