xAI, le concurrent d’OpenAI fondé par Elon Musk, a présenté la première version de Grok capable de traiter des informations visuelles. Grok-1.5V est le modèle d’IA multimodal de première génération de l’entreprise, qui peut non seulement traiter du texte, mais également « des documents, des diagrammes, des graphiques, des captures d’écran et des photographies ». Dans l’annonce de xAI, il a donné quelques exemples de la façon dont ses capacités peuvent être utilisées dans le monde réel. Vous pouvez, par exemple, lui montrer une photo d’un organigramme et demander à Grok de le traduire en code Python, lui faire écrire une histoire basée sur un dessin et même lui demander d’expliquer un mème que vous ne comprenez pas. Hé, tout le monde ne peut pas suivre tout ce qu’Internet crache.
La nouvelle version arrive quelques semaines seulement après que la société a dévoilé Grok-1.5. Ce modèle a été conçu pour être meilleur en codage et en mathématiques que son prédécesseur, ainsi que pour être capable de traiter des contextes plus longs afin de pouvoir vérifier les données provenant d’un plus grand nombre de sources afin de mieux comprendre certaines demandes. xAI a déclaré que ses premiers testeurs et les utilisateurs existants pourront bientôt profiter des capacités de Grok-1.5V, bien qu’il n’ait pas donné de calendrier exact pour son déploiement.
En plus d’introduire Grok-1.5V, la société a également publié un ensemble de données de référence qu’elle appelle RealWorldQA. Vous pouvez utiliser n’importe laquelle des 700 images de RealWorldQA pour évaluer les modèles d’IA : chaque élément est accompagné de questions et de réponses que vous pouvez facilement vérifier, mais qui peuvent dérouter les modèles multimodaux comme Grok. xAI a affirmé que sa technologie avait reçu le score le plus élevé lorsque la société l’avait testée avec RealWorldQA par rapport à des concurrents, tels que GPT-4V d’OpenAI et Google Gemini Pro 1.5.