jeudi, décembre 19, 2024

Bard AI de Google peut désormais écrire et exécuter du code pour répondre à une question

Les grands modèles de langage (LLM) comme ChatGPT et Google Bard peuvent fournir quelques des réponses décentes à certains types de questions, mais ces ordinateurs sont, ironiquement, assez mauvais pour l’informatique. Google propose une nouvelle solution pour essayer de faire en sorte que les modèles de langage effectuent correctement des tâches simples, comme les mathématiques : demandez à l’IA d’écrire un programme. Google dit que maintenant, lorsque vous demandez à Bard une tâche « informatique » comme les mathématiques ou la manipulation de chaînes, au lieu d’afficher la sortie du modèle de langage, ce modèle de langage écrira à la place un programme, exécutera ce programme, puis affichera la sortie de ce programme à l’utilisateur en guise de réponse.

Le billet de blog de Google fournit l’exemple d’entrée « Inverser le mot ‘Lollipop’ pour moi. » ChatGPT trompe cette question et fournit la réponse incorrecte « pillopoL », car les modèles de langage voient le monde en morceaux de mots, ou « jetons », et ils ne sont tout simplement pas bons pour cela. Voici l’exemple de sortie de Bard :

Google

Il obtient la sortie correcte en tant que « popilloL », mais le plus intéressant est qu’il inclut le code python il a écrit pour répondre à la question. C’est bien pour les personnes soucieuses de la programmation de voir sous le capot, mais wow, c’est probablement la sortie la plus effrayante jamais vue pour les gens ordinaires. Ce n’est pas non plus particulièrement pertinent. Imaginez si Gmail vous montrait un bloc de code alors que vous venez de lui demander de récupérer des e-mails. C’est étrange. Fais juste le travail qu’on t’a demandé de faire, Bard.

Google compare un modèle d’IA écrivant un programme à des humains effectuant une longue division en ce sens qu’il s’agit d’un mode de pensée différent :

Cette approche s’inspire d’une dichotomie bien étudiée dans l’intelligence humaine, notamment abordée dans le livre de Daniel Kahneman Penser, vite et lentement— la séparation de la pensée « Système 1 » et « Système 2 ».

  • La pensée du système 1 est rapide, intuitive et sans effort. Lorsqu’un musicien de jazz improvise sur place ou qu’un dactylographe pense à un mot et le regarde apparaître à l’écran, il utilise la pensée du système 1.
  • La pensée du système 2, en revanche, est lente, délibérée et exigeante. Lorsque vous effectuez une division longue ou que vous apprenez à jouer d’un instrument, vous utilisez le système 2.

Dans cette analogie, les LLM peuvent être considérés comme fonctionnant uniquement sous le système 1 – produisant du texte rapidement mais sans réflexion approfondie. Cela conduit à des capacités incroyables, mais peut échouer de manière surprenante. (Imaginez que vous essayez de résoudre un problème mathématique en utilisant uniquement le système 1 : vous ne pouvez pas vous arrêter et faire l’arithmétique, il vous suffit de cracher la première réponse qui vous vient à l’esprit.) Le calcul traditionnel s’aligne étroitement sur la pensée du système 2 : c’est une formule et inflexible, mais la bonne séquence d’étapes peut produire des résultats impressionnants, tels que des solutions à une longue division.

Google indique que cette méthode « d’écriture de code à la volée » sera également utilisée pour des questions telles que : « Quels sont les facteurs premiers de 15683615 ? » et « Calculer le taux de croissance de mon épargne. » La société déclare : « Jusqu’à présent, nous avons vu cette méthode améliorer d’environ 30 % la précision des réponses de Bard aux problèmes de mots et de mathématiques basés sur le calcul dans nos ensembles de données de défi internes. » Comme d’habitude, Google avertit Bard « pourrait ne pas réussir » en raison d’une mauvaise interprétation de votre question ou simplement, comme nous tous, de l’écriture d’un code qui ne fonctionne pas la première fois.

Bard est en train de coder des réponses à la volée en ce moment si vous voulez essayer sur bard.google.com.

Source-147

- Advertisement -

Latest