Il semble que les sociétés d’IA telles que Microsoft, OpenAI et Cohere fassent tout ce qu’elles peuvent pour trouver des données synthétiques avec lesquelles former leurs produits d’IA. Citant la disponibilité limitée de données « organiques » générées par l’homme sur le World Wide Web, ces entreprises visent à utiliser les données (synthétiques) générées par l’IA dans une sorte de boucle infinie, où la formation est réalisée sur des données déjà créées de manière générative.
« Si vous pouviez obtenir toutes les données dont vous avez besoin sur le Web, ce serait fantastique », a déclaré Aidan Gomez, directeur général de Cohere, une start-up LLM de 2 milliards de dollars, au Financial Times. « En réalité, le Web est tellement bruyant et désordonné qu’il n’est pas vraiment représentatif des données que vous voulez. Le Web ne fait tout simplement pas tout ce dont nous avons besoin.
Et il y a aussi la question du coût, car les données générées par l’homme, selon Gomez, sont « extrêmement chères ». Cela a déjà conduit à la création de certaines sociétés de « données synthétiques », comme Gretel.ai, spécialisée dans la production de jeux de données synthétiques qui sont ensuite vendus à des fins de formation.
Le problème de la disponibilité et de la provenance des données est l’un des principaux facteurs limitants de notre ère actuelle d’IA. Aujourd’hui, il existe de réels risques à former des réseaux d’IA avec des données synthétiques déjà « mâchées » et générées par les IA elles-mêmes. D’une part, il y a le problème des lacunes aggravées dans les données de formation de base : si l’ensemble de données de formation non synthétique d’origine souffrait déjà de biais, ces mêmes biais seront inclus, digérés et amplifiés dans les itérations de formation ultérieures, ce qui augmentera sa pertinence.
Mais un autre problème, peut-être beaucoup plus percutant, découle d’une limite récemment découverte : la qualité de sortie se dégrade considérablement après cinq cycles de formation sur des données synthétiques générées par l’IA. Que cette condition « MAD » présente une limite souple ou dure à la formation à l’IA semble être une question au cœur de l’intention de Microsoft et d’OpenAI de former de manière récursive leurs réseaux d’IA. C’est un espace qui verra probablement une vague d’études, cependant; Microsoft Research, par exemple, a publié des articles sur des histoires courtes générées de manière récursive (ce qui signifie qu’un modèle a été formé sur des histoires générées par un autre modèle) et un réseau d’IA de codage qui a été formé sur la documentation générée par l’IA autour de la programmation Python. La vérification des risques de dégénérescence des données dans ces modèles et d’autres modèles de plus grande taille (tels que le paramètre 70B Llama 2, récemment publié en open source par Meta) sera essentielle pour déterminer dans quelle mesure (et à quelle vitesse) l’IA évolue dans un avenir prévisible.
Les entreprises axées sur l’IA réclamant de plus en plus de données, il est logique qu’elles essaient de générer de manière récursive des ensembles de données de haute qualité. Cela peut être fait de plusieurs manières, mais peut-être que celle qui a la plus grande probabilité de succès vient simplement de laisser deux réseaux d’IA interagir l’un avec l’autre, l’un jouant le rôle de tuteur et l’autre celui d’étudiant. Une intervention humaine serait (et sera toujours) nécessaire, cependant, afin d’éliminer les points de données de qualité inférieure et de contrôler les « hallucinations » (affirmations de l’IA qui ne sont pas véridiques).
Il y a quelques obstacles sur la route vers le rêve technocratique d’une IA auto-évolutive et auto-apprenante ; des modèles qui peuvent avoir des discussions internes, des découvertes internes et qui produisent de nouvelles connaissances qui ne sont pas simplement mélangées et assorties (bien que ce soit l’une des caractéristiques de la production créative, après tout).
Bien sûr, nous devons garder à l’esprit que tous les rêves ne sont pas agréables. Nous avons déjà du mal à gérer les cauchemars induits par l’homme ; on ne sait pas à quel point les « cauchemars » d’une machine peuvent avoir un impact.