Comment utiliser Jarvis, le bot One AI de Microsoft pour les gouverner tous

Avec toutes les discussions sur les chatbots tels que ChatGPT, il est facile d’oublier que le chat textuel n’est qu’une des nombreuses fonctions de l’IA. L’IA générative idéale serait capable de travailler sur différents modèles selon les besoins, en interprétant et en générant des images, de l’audio et de la vidéo.

Entrez Jarvis, un nouveau projet de Microsoft qui promet un bot pour les gouverner tous. Jarvis utilise ChatGPT comme contrôleur pour un système où il peut utiliser une variété d’autres modèles selon les besoins pour répondre à votre invite. Dans un papier (s’ouvre dans un nouvel onglet) publié par l’Université Cornell, des chercheurs de Microsoft (Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu et Yueting Zhuang) expliquent le fonctionnement de ce framework. Un utilisateur fait une demande au bot, il planifie la tâche, choisit les modèles dont il a besoin, fait exécuter la tâche par ces modèles, puis génère et émet une réponse.

Le tableau ci-dessous, fourni dans le document de recherche, montre comment ce processus fonctionne dans le monde réel. Un utilisateur demande au bot de créer une image où une fille lit un livre et elle est positionnée de la même manière qu’un garçon dans un exemple d’image. Le bot planifie la tâche, utilise un modèle pour interpréter la pose du garçon dans l’image d’origine, puis déploie un autre modèle pour dessiner la sortie.

(Crédit image : Microsoft Research)

Microsoft a une page Github (s’ouvre dans un nouvel onglet) où vous pouvez télécharger et essayer Jarvis sur un PC sous Linux. La société vous recommande d’utiliser Ubuntu (la version obsolète 16 LTS en particulier), mais j’ai pu en obtenir la principale fonctionnalité – un chatbot basé sur un terminal – fonctionnant sur Ubuntu 22.04 LTS et sur le sous-système Windows pour Linux.

Source-138