Ces derniers mois, il y a eu une vague de preuves anecdotiques et de murmures généraux concernant une baisse de la qualité des réponses ChatGPT. Une équipe de chercheurs de Stanford et de l’UC Berkeley a décidé de déterminer s’il y avait effectivement une dégradation et de proposer des mesures pour quantifier l’ampleur des changements préjudiciables. Pour faire court, la plongée dans la qualité de ChatGPT n’était certainement pas imaginée.
Trois universitaires distingués, Matei Zaharia, Lingjiao Chen et James Zou, étaient à l’origine du document de recherche récemment publié Comment le comportement de ChatGPT change-t-il au fil du temps ? (PDF) Plus tôt dans la journée, un professeur d’informatique à l’UC Berkeley, Zaharia, s’est rendu sur Twitter pour partager les découvertes. Il a souligné de manière surprenante que « le taux de réussite du GPT -4 sur » est-ce que ce nombre est premier? Réfléchissez étape par étape « est passé de 97,6% à 2,4% de mars à juin ».
GPT-4 est devenu généralement disponible il y a environ deux semaines et a été défendu par OpenAI comme son modèle le plus avancé et le plus performant. Il a été rapidement diffusé aux développeurs d’API payants, affirmant qu’il pouvait alimenter une gamme de nouveaux produits d’IA innovants. Par conséquent, il est triste et surprenant que la nouvelle étude trouve si peu de réponses de qualité face à des questions assez simples.
Nous avons déjà donné un exemple du taux d’échec superlatif de GPT-4 dans les requêtes de nombres premiers ci-dessus. L’équipe de recherche a conçu des tâches pour mesurer les aspects qualitatifs suivants des grands modèles linguistiques sous-jacents de ChatGPT (LLM) GPT-4 et GPT-3.5. Les tâches se répartissent en quatre catégories, mesurant une gamme variée de compétences en IA tout en étant relativement simples à évaluer pour les performances.
- Résolution de problèmes mathématiques
- Répondre aux questions sensibles
- Génération de code
- Raisonnement visuel
Un aperçu des performances des LLM Open AI est fourni dans le tableau ci-dessous. Les chercheurs ont quantifié les versions de GPT-4 et GPT-3.5 dans leurs versions de mars 2023 et juin 2023.
Il est clairement illustré que le « même » service LLM répond aux requêtes de manière assez différente au fil du temps. Des différences significatives sont observées sur cette période relativement courte. On ne sait toujours pas comment ces LLM sont mis à jour et si des changements visant à améliorer certains aspects de leurs performances peuvent avoir un impact négatif sur d’autres. Découvrez à quel point la dernière version de GPT-4 est « pire » par rapport à la version de mars dans trois catégories de test. Il ne profite que d’une petite marge dans le raisonnement visuel.
Certains peuvent être indifférents à la qualité variable observée dans les « mêmes versions » de ces LLM. Cependant, les chercheurs notent : « En raison de la popularité de ChatGPT, GPT-4 et GPT-3.5 ont été largement adoptés par les utilisateurs individuels et un certain nombre d’entreprises. » Par conséquent, il n’est pas impossible que certaines informations générées par GPT puissent affecter ton vie.
Les chercheurs ont exprimé leur intention de continuer à évaluer les versions GPT dans une étude plus longue. Open AI devrait peut-être surveiller et publier ses propres contrôles de qualité réguliers pour ses clients payants. Si cela ne peut pas être plus clair à ce sujet, il peut être nécessaire que les entreprises ou les organisations gouvernementales contrôlent certaines mesures de qualité de base pour ces LLM, qui peuvent avoir des impacts commerciaux et de recherche importants.
Non, nous n’avons pas rendu le GPT-4 plus stupide. Bien au contraire : nous rendons chaque nouvelle version plus intelligente que la précédente. Hypothèse actuelle : lorsque vous l’utilisez plus intensivement, vous commencez à remarquer des problèmes que vous n’aviez pas vus auparavant.13 juillet 2023
La technologie AI et LLM n’est pas étrangère aux problèmes surprenants, et avec les allégations de vol de données de l’industrie et d’autres bourbiers de relations publiques, il semble actuellement être la dernière frontière du » Far West » sur la vie et le commerce connectés.