Alors que l’IA générative continue de faire la une des journaux, il est parfois difficile de trouver des cas d’utilisation réels en entreprise parmi le battage médiatique. Writer est une startup de San Francisco qui travaille à la création de produits d’écriture génératifs d’IA en pensant à l’entreprise. Aujourd’hui, la société a annoncé une nouvelle fonctionnalité pour son modèle Palmyra, qui génère du texte à partir d’images, notamment des graphiques et des diagrammes, appelée Palmyra-Vision.
May Habib, cofondatrice et PDG de l’entreprise, affirme avoir pris la décision stratégique de se concentrer sur le contenu multimodal, et la possibilité de générer du texte à partir d’images fait partie de cette stratégie. « Nous allons nous concentrer sur l’entrée multimodale, mais aussi sur la sortie de texte, donc la génération de texte et les informations fournies via le texte », a déclaré Habib à TechCrunch.
En suivant cette étoile directrice, l’entreprise a décidé d’analyser les images plutôt que de les produire (du moins pour le moment). Elle se réserve le droit de créer des tableaux et des graphiques à un moment donné à partir de données, mais ce n’est pas quelque chose qu’elle fait pour le moment. Cette version particulière se concentre sur la génération de texte à partir de ce type d’images.
La société utilise une approche de modèles multiples pour produire les résultats Palmyra-Vision, où chaque modèle a un travail spécifique à faire pour déterminer ce qu’il y a dans l’image, puis générer le texte avec une précision de quatre neuf, selon Habib.
Cela présente un certain nombre de cas d’utilisation, notamment un site Web de commerce électronique générant du texte à partir de milliers d’images changeantes pour remplir le site Web avec les dernières marchandises sans qu’un humain ne suive chaque changement, ou en interprétant automatiquement les principaux points à retenir des tableaux et des graphiques. Un autre exemple est la vérification de la conformité. Par exemple, une société pharmaceutique pourrait utiliser Palmyra-Vision pour effectuer une vérification automatisée de la conformité de la FDA par rapport au texte publicitaire, en s’assurant que la publicité est conforme aux réglementations de la FDA, comme indiqué dans un document associé, comme dans l’exemple ci-dessous.
Enfin, le produit peut interpréter et résumer des notes manuscrites en texte, mais Habib dit que cela nécessite de former le modèle pour des cas d’utilisation individuels tels que les soins médicaux ou l’assurance, afin que la précision soit là.
Habib dit qu’elle ne recommande pas d’utiliser ces outils sans un examen humain dans le cadre du flux de travail. Elle pense que c’est absolument essentiel, car tout mannequin peut halluciner (inventer des choses) ou simplement se tromper sur les faits, et il est important que les gens vérifient les résultats. Bien qu’ils recommandent toujours cela à chaque client, et que la plupart le comprennent à ce stade, elle pense que cela nécessitera à terme un flux de travail plus automatisé pour que cela se produise de manière cohérente entre les clients, ce sur quoi elle dit qu’ils travaillent.
La société a levé 126 millions de dollars à ce jour, selon les données de Crunchbase, et discute actuellement avec les grandes plates-formes d’infrastructure cloud d’un partenariat alors qu’elles tentent de faire évoluer l’entreprise. Son tour le plus récent était une série B de 100 millions de dollars en septembre dernier dirigée par Iconiq.
La dernière version de Palmyra avec les fonctionnalités image en texte est disponible à partir d’aujourd’hui.