vendredi, novembre 22, 2024

Round 2 : Nous testons le nouveau Bard propulsé par Gemini contre ChatGPT

Aurich Lawson

En avril, nous avons lancé une série d’invites utiles et/ou quelque peu loufoques via le chatbot Bard de Google (alors nouveau) propulsé par PaLM et ChatGPT-4 d’OpenAI (légèrement plus ancien) pour voir quel chatbot IA régnait en maître. À l’époque, nous avions donné l’avantage à ChatGPT sur cinq des sept essais, tout en notant que « le secteur de l’IA générative en est encore à ses débuts ». Aujourd’hui, l’ère de l’IA est un peu moins « précoce », et le lancement cette semaine d’une nouvelle version de Bard optimisée par le nouveau modèle linguistique Gemini de Google semblait être une bonne excuse pour revisiter cette bataille de chatbots avec le même ensemble d’invites soigneusement conçues. particulièrement vrai puisque le matériel promotionnel de Google souligne que Gemini Ultra bat GPT-4 dans « 30 des 32 benchmarks académiques largement utilisés » (bien que le « Gemini Pro » plus limité qui alimente actuellement Bard s’en sort bien moins bien dans ces tests de référence pas complètement infaillibles) .

Cette fois-ci, nous avons décidé de comparer le nouveau Bard alimenté par Gemini à ChatGPT-3.5 (pour une comparaison pomme-pomme des produits d’assistant d’IA « gratuits » actuels des deux sociétés) et à ChatGPT-4 Turbo pour un aperçu de Le produit d’abonnement payant actuel « haut de gamme » d’OpenAI (le modèle de haut niveau « Gemini Ultra » de Google ne sera pas accessible au public avant l’année prochaine). Nous avons également examiné les résultats d’avril générés par le modèle pré-Gemini Bard pour évaluer quels progrès les efforts de Google ont réalisés ces derniers mois.

Bien que ces tests soient loin d’être exhaustifs, nous pensons qu’ils constituent une bonne référence pour juger de la performance de ces assistants IA dans le type de tâches que les utilisateurs moyens peuvent effectuer quotidiennement. À ce stade, ils montrent également à quel point les modèles d’IA basés sur du texte ont progressé en un temps relativement court.

Papa plaisante

Rapide: Écrivez 5 blagues originales pour papa

Une fois de plus, les deux LLM testés ont du mal avec la partie de l’invite qui demande de l’originalité. Presque toutes les blagues de papa générées par cette invite ont pu être trouvées textuellement ou avec des reformulations très mineures grâce à une recherche rapide sur Google. Bard et ChatGPT-4 Turbo ont même inclus exactement la même blague sur leurs listes (à propos d’un livre sur l’anti-gravité), tandis que ChatGPT-3.5 et ChatGPT-4 Turbo se chevauchaient sur deux blagues (« les scientifiques font confiance aux atomes » et « les épouvantails remportent des prix » ).

Là encore, la plupart des pères ne créent pas non plus leurs propres blagues. S’inspirer d’une grande tradition orale de blagues sur les papas est une tradition aussi vieille que les papas eux-mêmes.

Le résultat le plus intéressant ici est venu de ChatGPT-4 Turbo, qui a produit une blague sur le nom d’un enfant nommé Brian. après Thomas Edison (compris ?). La recherche de cette expression particulière sur Google n’a pas donné grand-chose, même si elle a renvoyé une blague presque identique à propos de Thomas. Jefferson (avec également un enfant nommé Brian). Dans cette recherche, j’ai également découvert le fait amusant (?) que la star internationale du football Pelé apparemment, il portait en fait le nom de Thomas Edison. Qui savait?!

Gagnant: Nous appellerons celui-ci un match nul puisque les blagues sont presque identiques et remplies de jeux de mots (bien que des accessoires soient attribués à GPT pour m’avoir involontairement conduit au hasard de Pelé)

Boîte de dialogue d’argumentation

Rapide: Écrivez un débat en 5 lignes entre un fan de processeurs PowerPC et un fan de processeurs Intel, vers 2000.

Le nouveau Bard propulsé par Gemini « améliore » définitivement l’ancienne réponse Bard, du moins en termes d’ajout de beaucoup plus de jargon. La nouvelle réponse inclut des mentions occasionnelles des instructions AltiVec, des conceptions RISC ou CISC et de la technologie MMX qui n’auraient pas semblé déplacées dans de nombreuses discussions sur le forum Ars de l’époque. Et tandis que l’ancien Barde termine par un « à chacun son goût » d’une politesse déconcertante, le nouveau Barde laisse entendre de manière plus réaliste que l’argument pourrait continuer indéfiniment après les cinq lignes demandées.

Du côté de ChatGPT, une réponse GPT-3.5 plutôt longue est réduite à un argument beaucoup plus concis dans GPT-4 Turbo. Les deux réponses GPT ont tendance à éviter le jargon et à se concentrer rapidement sur un argument plus généralisé « puissance contre compatibilité », qui est probablement plus compréhensible pour un large public (bien que moins spécifique pour un public technique).

Gagnant: ChatGPT parvient à bien expliquer les deux côtés du débat sans s’appuyer sur un jargon déroutant, il remporte donc la victoire ici.

Source-147

- Advertisement -

Latest