Développer un chatbot avancé n’exige pas des investissements colossaux. Matthew Carrigan, ingénieur chez HuggingFace, présente une configuration matérielle à 6 000 $ sans GPU haut de gamme, utilisant une carte mère AMD EPYC et 768 Go de RAM. Cette solution permet de faire fonctionner le LLM DeepSeek R1 avec des performances satisfaisantes, bien que limitées en mode multi-utilisateurs. La découverte remet en question l’idée que de puissantes ressources sont indispensables pour les modèles de langage modernes.
Développer un Chatbot Avancé sans GPU Coûteux
Pensez-vous qu’il faut investir des millions pour faire fonctionner un chatbot de pointe ? Détrompez-vous ! Matthew Carrigan, ingénieur chez HuggingFace, révèle que vous pouvez faire tourner le nouvel LLM DeepSeek R1 avec seulement 6 000 $ de matériel PC, sans nécessiter de GPU haut de gamme.
Configuration Matérielle Recommandée
Selon Carrigan, la configuration idéale comprend une carte mère AMD EPYC à double socket avec quelques processeurs AMD compatibles. Les spécifications des CPU ne sont pas le facteur déterminant ; l’élément clé réside dans la mémoire.
« Nous avons besoin de 768 Go de RAM pour faire fonctionner le modèle, répartis sur 24 canaux afin d’assurer une bande passante rapide », explique Carrigan. Cela nécessite 24 modules DDR5-RDIMM de 32 Go, avec un coût de la RAM avoisinant 3 400 $.
En plus de cela, vous aurez besoin d’un boîtier, d’une alimentation, d’un SSD de 1 To, ainsi que de quelques dissipateurs thermiques et ventilateurs pour compléter votre configuration.
Cette configuration vous procure une expérience complète de DeepSeek R1 sans compromis. « Le modèle fonctionne sans distillation, et la quantification Q8 est là pour garantir une qualité optimale », précise-t-il.
Une fois votre matériel en place, il suffit de lancer Linux, d’installer llama.cpp, de télécharger 700 Go de données, puis d’exécuter une chaîne de commandes fournie par Carrigan pour faire fonctionner votre modèle de langage localement.
Un aspect remarquable de cette configuration est l’absence de mention de GPU Nvidia onéreux. Carrigan propose également une vidéo démontrant le LLM fonctionnant efficacement sur cette installation, accompagnée de quelques mesures de performance.
« Sur cette configuration, la vitesse de génération varie de 6 à 8 tokens par seconde, en fonction du CPU et de la vitesse de la RAM. Cela peut être légèrement inférieur avec un long historique de chat », ajoute-t-il. La vidéo illustre le modèle produisant du texte de manière fluide, mais il est important de noter que cela est pour un seul utilisateur. En mode multi-utilisateurs, les performances par utilisateur pourraient rapidement diminuer.
En résumé, ces 6 000 $ de matériel sont adaptés pour un usage individuel. Cela ne semble pas être une solution viable pour une entreprise d’IA visant à servir des milliers de clients. Dans ce cas, investir dans des GPU pourrait être plus rentable, malgré leur coût élevé.
Carrigan mentionne qu’une configuration basée sur des GPU pourrait rapidement atteindre des coûts à trois chiffres, bien que les performances soient supérieures.
Il est fascinant de découvrir qu’il n’est pas nécessaire de débourser des millions pour faire fonctionner un LLM complet localement. Cela offre un aperçu de la véritable puissance requise par les derniers modèles de langage.
En tant qu’utilisateur, vous pourriez penser qu’une immense puissance de calcul est nécessaire pour générer les réponses des LLM. Pourtant, cette configuration démontre qu’il est possible d’y parvenir avec quelques CPU AMD.
Ainsi, à moins que vous ne croyiez qu’une paire de CPU AMD puisse atteindre la conscience, cette solution matérielle révèle la réalité des LLM les plus avancés. Peut-être que la crainte d’une apocalypse liée à l’IA n’est pas aussi imminente qu’on le suppose.