Les propriétaires de cartes graphiques RTX des séries 40 et 30 peuvent désormais configurer leur propre modèle de langage large (LLM) personnalisé sur leur propre PC. C’est celui qui est éminemment capable de passer au crible d’anciens documents ou de distiller l’essence des vidéos YouTube.
Chat with RTX est désormais disponible en téléchargement gratuit sur le site Web de Nvidia à partir d’aujourd’hui, le 13 février. Il fonctionne avec n’importe quelle carte graphique actuelle ou de dernière génération avec au moins 8 Go de VRAM ou plus, qui inclut toutes les cartes de bureau à l’exception du RTX 3050 6 Go et exclut un quelques GPU pour ordinateurs portables de milieu à bas de gamme. Il nécessite également 50 à 100 Go d’espace de stockage sur votre PC, selon les modèles d’IA téléchargés.
Vous avez le choix entre deux modèles : Mistral ou Llama 2. La valeur par défaut est Mistral, et je vous recommande de vous y tenir.
Les éléments clés de Chat avec RTX sont la génération augmentée par récupération (RAG) et TensorRT-LLM. Le premier signifie que vous êtes en mesure de fournir au LLM des informations qu’il utilisera parallèlement à sa formation interne pour générer des réponses précises à vos requêtes. Ce dernier construit des moteurs TensorRT capables d’exploiter le silicium des GPU GeForce de Nvidia pour exécuter plus efficacement les applications d’IA.
Le résultat est un LLM dans lequel vous pouvez alimenter vos propres données (types de fichiers .txt, .pdf et .doc) et que vous pouvez ensuite interroger sur ces données.
Par exemple, j’ai joué avec l’outil ces derniers jours et comme je crée beaucoup de documents dans le cadre de ce travail, cela me semble être le principal ensemble de données à insérer dans sa gueule béante. J’ai donc configuré Chat avec RTX sur mon PC alimenté par RTX 4080 (taille d’installation de 61,7 Go) et nourri le modèle Mistral avec plus de 1 300 proses merveilleuses (hum, ou plutôt mes brouillons d’articles d’actualité). J’ai alors commencé à lui poser quelques questions.
Tout d’abord, j’ai demandé : « Pourriez-vous nommer les articles dans lesquels je mentionne Nvidia ?
Il en ressort la réponse ci-dessus répertoriant trois articles avec leur chemin de fichier. Maintenant, j’ai certainement parlé de Nvidia plus de trois fois dans 1 300 articles, alors essayons à nouveau.
Je demande à nouveau, en reformulant un peu la requête : « Pourriez-vous lister tous les articles dans lesquels je mentionne Nvidia ?
Cette fois, huit articles sont répertoriés, cette fois avec les titres Google Doc répertoriés. J’ai mentionné Nvidia à plusieurs reprises, mais vous avez une idée générale de la façon dont tout cela fonctionne. Chaque réponse semble fondée sur la vérité, chaque réponse citant les données utilisées pour la générer, voire toujours la vérité entière. La simple utilisation de la fonction de recherche Windows dans l’ensemble de données de l’article fait apparaître 128 brouillons incluant le terme « Nvidia » dans le titre, sans parler du corps du texte.
Un autre exemple est que si je demande à Chat with RTX de me dire combien de fois j’ai utilisé le mot fromage, cela me dit que je n’ai jamais utilisé cette expression, citant un document sans titre et sans rapport comme source d’information. Néanmoins, c’est probablement vrai à propos du fromage. Jusqu’à maintenant, en tout cas.
Pourtant, l’outil est plus intéressant une fois que vous commencez à lui demander de résumer de grandes quantités d’informations en réponses simples.
J’ai demandé à Chat with RTX si je devais acheter un Intel Core i9 14900K, et il m’est revenu avec une version réduite de ma propre critique du 14900K, qui la résumait succinctement ainsi : « D’après l’examen, il semble que l’Intel Core i9 14900K ne vaut peut-être pas le coût supplémentaire par rapport au Core i9 13900K ».
Je ne pourrais pas le dire mieux moi-même.
J’ai également demandé à Chat with RTX de résumer un article que j’ai écrit il y a quelque temps sur l’équipe d’esports F1 d’Alpine, qu’il expliquait succinctement, puis de me parler des processeurs Intel Meteor Lake, qui, je le savais, étaient abordés à plusieurs reprises dans les articles du base de données.
Oh, et je lui ai demandé qui j’étais. C’était davantage pour me faire sentir important, car le LLM renvoyait une description de moi dans des mots assez proches de ceux que j’utilisais pour me décrire dans la biographie de mon site. Théoriquement, vous pourriez simplement fournir à Chat with RTX des milliers de documents sur votre grandeur et créer le logiciel de rêve d’un narcissique.
Non pas que je ferais ça, non.
C’est pour la synthèse de grands ensembles de données que je pourrais voir cet outil utile. Même si je doute que tout le monde en ait un tel besoin. L’utilisateur moyen d’un PC n’aimera peut-être pas qu’une application de 100 Go lui dise ce qu’il sait déjà. Mais, disons que vous travaillez avec un grand nombre de réponses à une enquête et que vous souhaitez avoir rapidement une idée des pensées et des sentiments généraux de ceux qui ont répondu, c’est un moyen simple de le faire. Mais il est préférable de l’utiliser avec prudence et uniquement comme guide pour l’ensemble de données saisi, et non comme moyen de l’analyser avec précision et dans son intégralité.
Les autres personnes qui pourraient être attirées sont celles qui préfèrent conserver leur contenu hors du cloud. L’idée de demander à une IA hébergée Dieu sait où de gérer des fichiers susceptibles de contenir des informations sensibles, ou des manuscrits pour votre grande idée de film d’action, n’est pas très attrayante pour beaucoup. Nous avons déjà vu à quoi cela ressemble lorsque cela tourne mal grâce aux employés de Samsung. C’est pourquoi un outil géré localement comme celui-ci pourrait plutôt plaire.
L’autre utilisation du Chat avec RTX est de lui fournir des vidéos YouTube puis de l’interroger sur le contenu. J’ai récupéré un épisode de Chat Log, un podcast hébergé par mes collègues Lauren Morton et Mollie Taylor, et je l’ai introduit dans la machine. L’épisode s’intitule « Le Steam Deck convient-il jusqu’à présent au style de vie des joueurs sur PC ? »
J’ai demandé : « Le Steam Deck est-il facile à utiliser au quotidien ? et une réponse imprimée qui résume la conversation de Lauren et Mollie avec Tyler Colp à ce sujet.
J’ai également posé la question évidente : « Le Steam Deck convient-il jusqu’à présent à leur style de vie de jeu sur PC ? La réponse:
Cette fonctionnalité fonctionne en téléchargeant la transcription de la vidéo YouTube, en l’ingérant et en utilisant RAG pour répondre de manière appropriée aux questions d’un utilisateur. Il semble définitivement générer de bons résumés de vidéos YouTube avec beaucoup de discussions, bien qu’en raison de la dépendance aux transcriptions, vous ne pouvez pas lui fournir quoi que ce soit qui repose sur des informations visuelles. Donnez-lui la bande-annonce de Grand Theft Auto VI sans aucun mot et vous n’en tirerez rien.
Je ne suis pas sûr de l’utilisation de YouTube. D’une part, je pourrais le voir utile pour un résumé d’une longue diffusion en direct ou d’un événement que vous n’avez pas le temps de regarder vous-même, bien que ce soit une application volumineuse à avoir sous la main pour les quelques cas où c’est une chose. De la même manière, le créateur de YouTube ne semble pas comprendre ce qui se passe, et j’ai tendance à tomber dans le camp « Les IA qui récupèrent les informations des créateurs en ligne et n’offrent rien en échange briseront le cœur même d’Internet tel que nous le connaissons ». . Cette application à elle seule ne fera peut-être pas beaucoup de différence, mais je crois fermement que si vous souhaitez obtenir les informations fournies par quelqu’un, vous devriez au moins l’aider à en créer davantage.
Quoi qu’il en soit, les contenus YouTube passent au second plan pour moi avec Chat with RTX. C’est la masse locale la digestion de fichiers texte qui semble être l’élément le plus important du logiciel. En tant qu’application, c’est assez rapide. Il génère des réponses rapidement une fois que vous appuyez sur Envoyer pour une requête. Bien qu’il semble engloutir environ 85 % de ma VRAM, vous devez vous assurer de le fermer correctement avec l’interrupteur d’arrêt pour le remettre sur le PC une fois que vous en avez terminé.
Discuter avec RTX est un concept amusant et un bon moyen pour Nvidia de montrer ce que l’inférence locale sur ses cartes GeForce peut faire, mais je ne suis pas sûr de le conserver sur mon PC. D’une part, c’est absolument énorme en raison de l’énorme quantité de données de modèle, mais plus encore parce que les utilisations pratiques réelles sont assez limitées pour moi personnellement.
Peut-être que certains saboteurs intelligents trouveront de nouvelles façons passionnantes de le mettre en pratique maintenant qu’il est disponible dans le monde. Cela pourrait être vous, à condition que vous disposiez du matériel approprié. Vous pouvez télécharger Chat with RTX pour essayer par vous-même dès aujourd’hui.