Microsoft lance la recherche vectorielle en avant-première, le clonage vocal en disponibilité générale

Lors de sa conférence annuelle Inspire, Microsoft a annoncé un certain nombre de nouvelles fonctionnalités d’IA destinées à Azure, dont la plus notable est peut-être la recherche vectorielle. Disponible en préversion via la recherche cognitive Azure, Vector Search utilise l’apprentissage automatique pour capturer la signification et le contexte des données non structurées, y compris les images et le texte, afin d’accélérer la recherche.

La vectorisation, une technique de recherche de plus en plus populaire, consiste à convertir des mots ou des images en vecteurs, ou en séries de nombres, qui encodent leur signification, ce qui permet de les traiter mathématiquement. Les vecteurs permettent aux machines de structurer et de donner un sens aux données, leur permettant de comprendre, par exemple, que des mots proches les uns des autres dans «l’espace vectoriel» – comme «roi» et «reine» – sont liés et les font rapidement apparaître à partir d’une base de données de millions de mots.

Des entreprises comme Qdrant et SeMI Technologies utilisent la recherche vectorielle pour alimenter leurs services de base de données, tout comme les géants de la technologie comme Amazon et Google.

La saveur de recherche vectorielle de Microsoft offre une recherche vectorielle « pure », une récupération hybride et un reclassement « sophistiqué ». La société note qu’il peut être utilisé dans des applications et des services pour générer des réponses personnalisées en langage naturel, fournir des recommandations de produits et identifier des modèles de données.

« La recherche de vecteurs est intégrée à Azure AI, permettant aux clients de créer des applications de recherche basées sur le chat, de convertir des images en représentations vectorielles à l’aide d’Azure AI Vision. [and] récupérer des informations pertinentes à partir de grands ensembles de données pour aider à automatiser les processus et les flux de travail », écrit la société dans un article de blog. « L’intégration de la recherche vectorielle s’étend de manière transparente à d’autres fonctionnalités de la recherche cognitive Azure, notamment la navigation à facettes, les filtres, etc. »

Ailleurs dans Azure, Microsoft lance ce qu’elle appelle la solution d’IA générative de documents, qui intègre les services de traitement de documents existants basés sur l’IA de Microsoft, y compris Azure Form Recognizer, avec le service Azure OpenAI. (Rappelons qu’Azure OpenAI Service est l’offre entièrement gérée et axée sur l’entreprise de Microsoft, conçue pour donner aux entreprises l’accès à la technologie d’intelligence artificielle d’OpenAI — avec qui Microsoft a un partenariat commercial étroit — avec des contrôles et des fonctionnalités de gouvernance supplémentaires.)

La solution Document Generative AI, qui s’appuie sur les derniers modèles de langage d’IA d’OpenAI, ingère des fichiers pour des tâches telles que la synthèse de rapports, l’extraction de valeurs, l’exploration de connaissances et la génération de nouveaux types de documents. Il permet essentiellement à une entreprise de créer une application comme ChatGPT d’OpenAI qui peut lire des documents et utiliser ces documents comme base pour ses réponses.

Par exemple, en utilisant Document Generative AI, un client peut télécharger des factures, des factures et des contrats pour permettre aux employés de poser des questions sur les garanties de service et des éléments de ligne spécifiques. La solution Document Generative AI répond aux questions sous forme de texte ainsi que d’images et de tableaux, fournissant des citations avec un lien vers le contenu source.

Microsoft explique :

« [Using the Document Generative AI solution, you can] interagissez avec des documents en langage naturel et générez de nouveaux contenus à partir de vos documents existants, y compris des articles de blog, des newsletters, des résumés et des légendes… Que vous ayez besoin de capacités de discussion intelligentes sur les documents, d’aide à la rédaction, de prise en charge des requêtes, de fonctionnalités de recherche complètes ou même de traduction de documents, Document Generative AI peut gérer des tâches documentaires complexes et diverses grâce aux modèles d’OpenAI.

Dans une annonce connexe, Microsoft a révélé que le modèle Whisper d’OpenAI, un modèle de reconnaissance vocale automatique, arrivera bientôt sur le service Azure OpenAI ainsi que sur la famille de services vocaux d’IA de Microsoft. Les entreprises clientes pourront utiliser Whisper pour transcrire et traduire du contenu audio ainsi que pour produire des transcriptions par lots « à grande échelle », explique Microsoft.

Pour compléter les dévoilements de l’IA à Inspire, Microsoft a annoncé l’aperçu public de la diarisation en temps réel, un service vocal basé sur l’IA qui peut identifier laquelle de plusieurs personnes parle en temps réel. La société a également annoncé la disponibilité plus large de Custom Neural Voice, qui exploite l’IA pour reproduire fidèlement la voix d’un acteur ou créer une voix synthétique originale.

Auparavant, Custom Neural Voice était en accès plus limité. Les clients doivent encore postuler et être approuvés par Microsoft pour pouvoir l’utiliser.

De peur que les gens ne s’inquiètent du potentiel de deepfakes, Microsoft affirme que Custom Neural Voice inclut des contrôles pour aider à prévenir l’utilisation abusive du service. Lorsqu’un client soumet un enregistrement, le doubleur – s’il est utilisé – doit faire une déclaration reconnaissant qu’il comprend la technologie et qu’il sait que le client se fait entendre. L’enregistrement est ensuite comparé via la vérification du locuteur pour s’assurer que les voix correspondent avant que le client ne puisse commencer à créer une voix.

Microsoft exige également par contrat que les clients obtiennent le consentement des talents vocaux, et les clients doivent accepter un code de conduite avant de pouvoir commencer à utiliser Custom Neural Voice. De plus, Microsoft propose des outils de filigrane et de détection visant à faciliter l’identification si un clip audio donné a été créé avec Custom Neural Voice.

Ces contrôles, en supposant qu’ils fonctionnent comme annoncé, ne résoudront pas nécessairement les controverses sur les licences et les consentements autour de la technologie de clonage de la voix. Mais Microsoft a évidemment décidé que ce n’était pas sa bataille à mener.

Source-146