Microsoft se lance sur la prochaine phase de l’expansion de Bing. Et – sans surprise – cela tourne fortement autour de l’IA.
Lors d’un événement en avant-première cette semaine à New York, des dirigeants de Microsoft, dont Yusuf Mehdi, le CVP et directeur du marketing grand public, ont donné aux membres de la presse, y compris ce journaliste, un aperçu de la gamme de fonctionnalités destinées à Bing au cours des prochains jours. , semaines et mois.
Ils ne réinventent pas tant la roue qu’ils s’appuient sur ce que Microsoft a injecté dans l’expérience Bing au cours des trois derniers mois environ. Depuis le lancement de Bing Chat, son chatbot alimenté par l’IA et alimenté par les modèles GPT-4 et DALL-E 2 d’OpenAI, Microsoft affirme que les visiteurs de Bing – qui a dépassé les 100 millions d’utilisateurs actifs quotidiens – se sont engagés dans plus d’un demi-milliard de chats et créé plus de 200 millions d’images.
À l’avenir, Bing deviendra plus visuel, grâce à des réponses plus centrées sur les images et les graphiques dans Bing Chat. Il deviendra également plus personnalisé, avec des fonctionnalités qui permettront aux utilisateurs d’exporter leurs historiques Bing Chat et d’extraire du contenu de plugins tiers (plus sur ceux-ci plus tard). Et il adoptera la multimodalité, du moins dans le sens où Bing Chat pourra répondre aux questions dans le contexte des images.
« Je pense qu’il est prudent de dire que nous sommes en train de transformer la recherche », a déclaré Mehdi dans des remarques préparées. « Dans notre esprit, nous pensons qu’aujourd’hui sera le début de la prochaine génération de cette » mission de recherche « . »
Ouvert et visuel
À partir d’aujourd’hui, le nouveau Bing – celui avec Bing Chat – est désormais disponible sans liste d’attente. Tout le monde peut l’essayer en se connectant avec un compte Microsoft.
C’est plus ou moins l’expérience lancée il y a plusieurs mois. Mais comme mentionné précédemment, Bing Chat répondra bientôt avec des images – du moins là où cela a du sens. Les réponses aux questions (par exemple « Où est le Machu Picchu ? ») seront accompagnées d’images pertinentes, le cas échéant, un peu comme le flux de recherche standard de Bing, mais condensées dans une interface de type carte.
Lors d’une démonstration lors de l’événement, un porte-parole a tapé la question « Est-ce que le cactus saguaro fait pousser des fleurs? » et Bing Chat a publié une réponse d’un paragraphe à côté d’une image du cactus en question. Pour moi, cela évoquait les « panneaux de connaissances » dans la recherche Google.
Microsoft ne dit pas exactement quelles catégories de contenu pourraient déclencher une image. Mais il a un filtrage en place pour empêcher l’apparition d’images explicites – du moins c’est ce qu’il prétend.
Sarah Bird, responsable de l’IA responsable chez Microsoft, m’a dit que Bing Chat bénéficie du filtrage et de la modération déjà en place avec la recherche Bing. Au-delà de cela, Bing Chat utilise une combinaison de «classificateurs de toxicité», ou de modèles d’IA formés pour détecter les invites potentiellement nuisibles, et de listes noires pour garder le chat relativement propre.
Ces mesures n’ont pas empêché Bing Chat de dérailler lors de son premier déploiement en avant-première début février, il convient de le noter. Notre couverture a révélé que le chatbot déversait des informations erronées sur le vaccin et écrivait une chape haineuse du point de vue d’Adolf Hitler. D’autres journalistes l’ont obtenu pour proférer des menaces, revendiquer plusieurs identités et même leur faire honte de l’avoir réprimandé.
Dans un autre coup contre Microsoft, la société a licencié il y a quelques mois à peine l’équipe d’éthique et de société au sein de sa plus grande organisation d’IA. Cette décision a laissé Microsoft sans équipe dédiée pour s’assurer que ses principes d’IA sont étroitement liés à la conception des produits.
Bird, cependant, affirme que des progrès significatifs ont été réalisés et que ces types de problèmes d’IA ne sont pas résolus du jour au lendemain – bien que Bing Chat puisse l’être. Entre autres mesures, une équipe de modérateurs humains est en place pour surveiller les abus, a-t-elle déclaré, tels que les utilisateurs tentant d’utiliser Bing Chat pour générer des e-mails de phishing.
Mais – comme les membres de la presse n’ont pas eu la chance d’interagir avec la dernière version de Bing au-delà des démos organisées – je ne peux pas dire dans quelle mesure tout cela a fait une différence. Cela deviendra sans doute clair une fois que les gens auront mis la main dessus.
Un aspect de Bing Chat qui est l’amélioration est la transparence autour de ses réponses – en particulier les réponses de nature factuelle. Bientôt, lorsqu’on lui demandera de résumer un document ou sur le contenu d’un document (par exemple « que dit cette page sur le pont de Brooklyn ? »), qu’il s’agisse d’un PDF de 20 pages ou d’un article de Wikipédia, Bing Chat inclura des citations indiquant d’où le texte d’où provient l’information. Cliquer dessus mettra en surbrillance le passage correspondant.
Productivité émergente
Dans une autre nouvelle fonctionnalité sur le plan visuel, Bing Chat pourra créer des tableaux et des graphiques lorsqu’il sera alimenté avec la bonne invite et les bonnes données. Auparavant, demander quelque chose comme « Quelles sont les villes les plus peuplées du Brésil ? » donnerait une liste de base de résultats. Mais dans un futur proche, Bing Chat présentera ces résultats visuellement et dans le type de graphique choisi par l’utilisateur.
Cela représente apparemment une étape pour Bing vers une plate-forme de productivité à part entière, en particulier lorsqu’elle est associée aux capacités améliorées de génération de texte en image à venir.
Dans les semaines à venir, Bing Image Creator – l’outil de Microsoft capable de générer des images à partir d’invites de texte, alimenté par DALL-E 2 – comprendra plus de langues que l’anglais (plus de 100 au total). Comme pour l’anglais, les utilisateurs pourront affiner les images qu’ils génèrent avec des invites de suivi (par exemple, « Créer une image d’un lapin », suivi de « Maintenant rendre la fourrure rose »).
L’IA de l’art génératif a beaucoup fait la une des journaux ces derniers temps – et pas nécessairement pour les raisons les plus optimistes.
Les plaignants ont intenté plusieurs poursuites contre OpenAI et ses fournisseurs rivaux, alléguant que des données protégées par le droit d’auteur – principalement de l’art – ont été utilisées sans leur permission pour former des modèles génératifs comme DALL-E 2. Les modèles génératifs « apprennent » à créer de l’art et plus encore en « s’entraînant » sur des exemples d’images et de texte, généralement extraits sans discernement du Web public.
J’ai demandé à Bird si Microsoft explorait des moyens de rémunérer les créateurs dont le travail a été balayé dans les données de formation, même si la position officielle de l’entreprise est que c’est une question d’utilisation équitable. Plusieurs plateformes lançant des outils d’IA génératifs, dont Shutterstock, ont lancé des fonds de créateurs dans ce sens. D’autres, comme Spawning, créent des mécanismes permettant aux artistes de se retirer complètement de la formation sur les modèles d’IA.
Bird a laissé entendre que ces problèmes devront éventuellement être affrontés – et que les créateurs de contenu méritent une certaine forme de récompense. Mais elle n’était pas disposée à s’engager dans quoi que ce soit de concret cette semaine.
Recherche multimodale
Ailleurs sur le front de l’image, Bing Chat acquiert la capacité de comprendre les images ainsi que le texte. Les utilisateurs pourront télécharger des images et rechercher sur le Web du contenu connexe, par exemple en copiant un lien vers une image d’une pieuvre au crochet et en posant à Bing Chat la question « comment puis-je faire cela? » pour obtenir des instructions étape par étape.
La multimodalité alimente également la nouvelle fonction de contexte de page dans l’application Edge pour mobile. Les utilisateurs pourront poser des questions dans Bing Chat liées à la page mobile qu’ils consultent.
Microsoft ne dirait rien, mais il semble probable que ces nouvelles capacités multimodales proviennent de GPT-4, qui peut comprendre des images en plus du texte. Lorsque OpenAI a annoncé GPT-4, il n’a pas mis les capacités de compréhension d’image du modèle à la disposition de tous les clients – et ne l’a toujours pas fait. Je parierais que Microsoft, étant un investisseur majeur et un proche collaborateur d’OpenAI, a une sorte d’accès privilégié.
Tout outil de téléchargement d’images peut être abusé, bien sûr, c’est pourquoi Microsoft utilise un filtrage et un hachage automatisés pour bloquer les téléchargements illicites, selon Bird. Le jury est déterminé à quel point cela fonctionne, cependant – nous n’avons pas eu la chance de tester nous-mêmes les téléchargements d’images.
Nouvelles fonctionnalités de chat
La multimodalité et les nouvelles fonctionnalités visuelles ne sont pas tout ce qui arrive sur Bing Chat.
Bientôt, Bing Chat stockera les historiques de chat des utilisateurs, leur permettant de reprendre là où ils se sont arrêtés et de revenir aux chats précédents quand ils le souhaitent. C’est une expérience similaire à la fonctionnalité d’historique de chat qu’OpenAI a récemment apportée à ChatGPT, affichant une liste de chats et les réponses du bot à chacun de ces chats.
Les détails de la fonction d’historique des discussions doivent encore être réglés, comme la durée exacte de stockage des discussions. Mais les utilisateurs pourront supprimer leur historique à tout moment, selon Microsoft, répondant aux critiques de plusieurs gouvernements de l’Union européenne à l’encontre de ChatGPT.
Bing Chat bénéficiera également de fonctionnalités d’exportation et de partage, permettant aux utilisateurs de partager des conversations sur les réseaux sociaux ou vers un document Word. Dena Saunders, partenaire GM de l’équipe des expériences Web de Microsoft, a déclaré à TechCrunch qu’un système de copier-coller plus robuste est en préparation – mais pas encore en avant-première – pour les graphiques et les images créés via Bing Chat.
Cependant, l’ajout le plus transformateur à Bing Chat est peut-être les plugins. De partenaires comme OpenTable et Wolfram Alpha, les plugins étendent considérablement ce que Bing Chat peut faire, par exemple en aidant les utilisateurs à réserver une réservation ou à créer des visualisations et à obtenir des réponses à des questions scientifiques et mathématiques difficiles.
Comme l’historique des discussions, la fonctionnalité des plugins pas encore en ligne en est aux toutes premières étapes. Il n’y a pas de marché de plugins à proprement parler ; les plugins peuvent être activés ou désactivés à partir de l’interface Web Bing Chat.
Saunders a laissé entendre, mais n’a pas confirmé, que le schéma de plug-ins Bing Chat était associé – ou peut-être identique – aux plug-ins OpenAI récemment introduits pour ChatGPT. Cela aurait certainement du sens, étant donné les similitudes entre les deux.
Bord, rafraîchi
Bing Chat est disponible via Edge ainsi que sur le Web, bien sûr. Et Edge reçoit une nouvelle couche de peinture aux côtés de Bing Chat.
Présenté pour la première fois en février, le nouveau Edge amélioré présente des coins arrondis conformément à la philosophie de conception de Windows 11 de Microsoft. Les éléments du navigateur sont désormais plus «conteneurisés», comme l’a dit un porte-parole de Microsoft, et il y a des ajustements subtils partout, comme l’image du compte Microsoft se déplaçant vers la gauche.
Dans Compose, l’outil alimenté par Bing Chat d’Edge qui peut écrire des e-mails et plus avec une invite de base (par exemple « écrire une invitation à la fête d’anniversaire de mon chien »), une nouvelle option permet aux utilisateurs d’ajuster la longueur, la formulation et le ton du texte généré pour presque tout ce qu’ils voudraient. Tapez le ton souhaité et Bing Chat écrira un message correspondant – Bird dit que des filtres sont en place pour empêcher l’utilisation de tons clairement problématiques, comme « haineux » ou « raciste ».
Bien plus intrigant que Compose, cependant – du moins pour moi – sont les actions dans Edge, qui traduisent certaines invites Bing Chat en automatisations.
Taper une commande telle que « apporter mes mots de passe d’un autre navigateur » dans Bing Chat dans la barre latérale Edge ouvre la page des paramètres de données de navigation d’Edge, tandis que l’invite « play ‘The Devil Wears Prada' » affiche une liste d’options de streaming, y compris Vudu et (prévisiblement ) la boutique Microsoft. Il y a même une action qui organise automatiquement – et coordonne les couleurs – des onglets de navigation.
Les actions sont actuellement à un stade primitif. Mais il est clair où Microsoft va, ici. On imagine des actions s’étendre éventuellement au-delà d’Edge pour atteindre d’autres produits Microsoft, comme Office 365, et peut-être un jour l’ensemble du bureau Windows.
Saunders ne confirmerait ni ne nierait que c’est la fin du jeu. « Restez à l’écoute pour Microsoft Build », m’a-t-elle dit, faisant référence à la prochaine conférence des développeurs de Microsoft. Nous le ferons.