Les nouvelles capacités de GPT-4 alimentent un « volontaire virtuel » pour les malvoyants

OpenAI a présenté au monde son dernier modèle d’IA puissant, GPT-4, et la première chose sur laquelle ils se sont associés avec ses nouvelles capacités est d’aider les personnes ayant une déficience visuelle. Be My Eyes, qui permet aux personnes aveugles et malvoyantes de demander aux personnes voyantes de décrire ce que leur téléphone voit, obtient un « volontaire virtuel » qui offre une aide alimentée par l’IA à tout moment.

Nous avons écrit de nombreuses fois sur Be My Eyes depuis sa création en 2015, et bien sûr, l’essor de la vision par ordinateur et d’autres outils a figuré en bonne place dans son histoire d’aider les malvoyants à naviguer plus facilement dans la vie quotidienne. Mais l’application elle-même ne peut pas faire grand-chose, et une fonctionnalité essentielle était toujours de pouvoir obtenir l’aide d’un bénévole, qui pouvait regarder à travers la vue de la caméra de votre téléphone et donner des descriptions ou des instructions détaillées.

La nouvelle version de l’application est la première à intégrer la capacité multimodale de GPT-4, c’est-à-dire sa capacité non seulement à discuter de manière intelligible, mais aussi à inspecter et comprendre les images qui lui sont données :

Les utilisateurs peuvent envoyer des images via l’application à un volontaire virtuel alimenté par l’IA, qui répondra à toute question concernant cette image et fournira une assistance visuelle instantanée pour une grande variété de tâches.

Par exemple, si un utilisateur envoie une photo de l’intérieur de son réfrigérateur, le Volontaire Virtuel pourra non seulement identifier correctement ce qu’il contient, mais aussi extrapoler et analyser ce qui peut être préparé avec ces ingrédients. L’outil peut également proposer un certain nombre de recettes pour ces ingrédients et envoyer un guide étape par étape sur la façon de les fabriquer.

Mais la vidéo accompagnant la description est plus éclairante. Dans ce document, Lucy, utilisatrice de Be My Eyes, montre que l’application l’aide avec un tas de choses en direct. Si vous n’êtes pas familier avec le patois rapide d’un lecteur d’écran, vous risquez de manquer une partie du dialogue, mais elle lui fait décrire l’apparence d’une robe, identifier une plante, lire une carte, traduire une étiquette, la diriger vers un certain tapis roulant à la salle de gym et lui dire quels boutons appuyer sur un distributeur automatique. (Vous pouvez regarder la vidéo ci-dessous.)

Be My Eyes Volontaire Virtuel

C’est une démonstration très concise de la façon dont une grande partie de notre infrastructure urbaine et commerciale est hostile aux personnes ayant des problèmes de vision. Et cela montre également à quel point le chat multimodal de GPT-4 peut être utile dans les bonnes circonstances.

Il ne fait aucun doute que les volontaires humains continueront d’être déterminants pour les utilisateurs de l’application Be My Eyes – il n’y a pas de les remplacer, seulement de relever la barre quand ils sont nécessaires (et en effet, ils peuvent être convoqués immédiatement si la réponse de l’IA n’est pas assez bonne ).

À titre d’exemple, l’IA suggère utilement au gymnase que « les machines disponibles sont celles sans personne dessus ». Merci! Comme l’a dit aujourd’hui le co-fondateur d’OpenAI, Sam Altman, les capacités sont plus impressionnantes à première vue qu’une fois que vous l’utilisez depuis un certain temps, mais nous devons également faire attention à ne pas regarder de trop près ce cheval cadeau dans la bouche.

L’équipe de Be My Eyes travaille en étroite collaboration avec OpenAI et avec sa communauté pour définir et guider ses capacités au fur et à mesure de son développement.

À l’heure actuelle, la fonctionnalité est en version bêta fermée parmi un « petit sous-ensemble » d’utilisateurs de Be My Eyes, qui sera étendue au cours des prochaines semaines. « Nous espérons rendre le Volontaire Virtuel largement disponible dans les mois à venir », écrit l’équipe. « Tout comme notre service de bénévolat existant, cet outil est gratuit pour tous les membres de la communauté aveugles et malvoyants utilisant l’application Be My Eyes. »

Compte tenu de la rapidité avec laquelle ChatGPT a été coopté pour fournir des services aux plates-formes SaaS d’entreprise et à d’autres applications plutôt prosaïques, il est encourageant de voir ce nouveau système immédiatement mis au travail pour aider les gens. Vous pouvez en savoir plus sur GPT-4 ici.

Source-146