Mercredi, Meta a annoncé un modèle d’IA appelé Segment Anything Model (SAM) qui peut identifier des objets individuels dans des images et des vidéos, même ceux qui n’ont pas été rencontrés pendant la formation, rapporte Reuters.
Selon un article de blog de Meta, SAM est un modèle de segmentation d’image qui peut répondre aux invites textuelles ou aux clics de l’utilisateur pour isoler des objets spécifiques dans une image. La segmentation d’image est un processus de vision par ordinateur qui consiste à diviser une image en plusieurs segments ou régions, chacun représentant un objet ou une zone d’intérêt spécifique.
Le but de la segmentation d’image est de faciliter l’analyse ou le traitement d’une image. Meta considère également que la technologie est utile pour comprendre le contenu des pages Web, les applications de réalité augmentée, l’édition d’images et l’étude scientifique en localisant automatiquement les animaux ou les objets à suivre sur vidéo.
En règle générale, explique Meta, la création d’un modèle de segmentation précis « nécessite un travail hautement spécialisé par des experts techniques ayant accès à une infrastructure de formation à l’IA et à de grands volumes de données soigneusement annotées dans le domaine ». En créant SAM, Meta espère « démocratiser » ce processus en réduisant le besoin de formation et d’expertise spécialisées, ce qui, espère-t-il, favorisera de nouvelles recherches sur la vision par ordinateur.
En plus de SAM, Meta a assemblé un ensemble de données qu’il appelle « SA-1B » qui comprend 11 millions d’images sous licence d’une « grande société de photo » et 1,1 milliard de masques de segmentation produits par son modèle de segmentation. Meta mettra SAM et son ensemble de données à disposition à des fins de recherche sous une licence Apache 2.0.
Actuellement, le code (sans les poids) est disponible sur GitHub, et Meta a créé une démo interactive gratuite de sa technologie de segmentation. Dans la démo, les visiteurs peuvent télécharger une photo et utiliser « Hover & Click » (sélectionner des objets avec une souris), « Box » (sélectionner des objets dans une zone de sélection) ou « Everything » (qui tente d’identifier automatiquement chaque objet dans le image).
Bien que la technologie de segmentation d’images ne soit pas nouvelle, SAM se distingue par sa capacité à identifier des objets non présents dans son ensemble de données de formation et son approche partiellement ouverte. En outre, la sortie du modèle SA-1B pourrait déclencher une nouvelle génération d’applications de vision par ordinateur, similaire à la façon dont le modèle de langage LLaMA de Meta inspire déjà des projets dérivés.
Selon Reuters, le PDG de Meta, Mark Zuckerberg, a souligné l’importance d’intégrer l’IA générative dans les applications de l’entreprise cette année. Bien que Meta n’ait pas encore publié de produit commercial utilisant ce type d’IA, il a déjà utilisé une technologie similaire à SAM en interne avec Facebook pour le marquage des photos, la modération du contenu et la détermination des publications recommandées sur Facebook et Instagram.
L’annonce de Meta intervient au milieu d’une concurrence féroce entre les entreprises Big Tech pour dominer l’espace de l’IA. Le modèle de langage ChatGPT d’OpenAI, soutenu par Microsoft, a suscité une large attention à l’automne 2022, déclenchant une vague d’investissements qui pourrait définir la prochaine grande tendance commerciale en matière de technologie au-delà des médias sociaux et du smartphone.