La semaine dernière, un utilisateur a cherché de l’inspiration pour le dîner en prenant une photo de son réfrigérateur avec son iPhone 16. À sa surprise, ChatGPT et Google lui ont proposé des recettes. L’article explore l’avenir des caméras de smartphones comme outils de recherche visuelle, avec des entreprises développant des assistants IA capables d’interagir avec divers types d’entrées. Malgré ces avancées, certains utilisateurs restent sceptiques quant à l’utilité de ces nouvelles fonctionnalités.
La semaine dernière, je me suis retrouvé sans inspiration pour le dîner. J’ai donc ouvert mon réfrigérateur, utilisé la caméra de mon iPhone 16 pour prendre une photo, puis partagé cette image avec ChatGPT et Google.
À ma grande surprise, les deux assistants virtuels ont proposé des idées alléchantes. Google m’a recommandé de concocter une salade avec des raisins et des légumes, tandis que ChatGPT a repéré des cornichons sur l’étagère et m’a suggéré de les intégrer dans un wrap ou un sandwich.
Utiliser la caméra de votre smartphone pour dénicher des recettes n’est qu’un aperçu de ce que l’avenir nous réserve. Les géants de la technologie prévoient que les caméras de nos téléphones joueront un rôle encore plus crucial dans nos tâches quotidiennes, et ce, très bientôt.
Une nouvelle ère pour la technologie mobile
Au lieu de simplement énoncer ce que vous souhaitez à votre téléphone, vous pourrez désormais lui montrer votre environnement. Des entreprises comme Apple, Google, OpenAI, Qualcomm et Meta ont commencé à développer des fonctionnalités basées sur l’IA et la caméra pour les smartphones et les lunettes intelligentes, prévues pour 2024.
Les entreprises technologiques ne se contentent plus de permettre la prise de photos et la mémorisation de moments précieux; elles envisagent de transformer la caméra en un moteur de recherche visuel. Imaginez diriger votre caméra vers un restaurant pour obtenir des informations telles que les heures d’ouverture et des photos de leurs plats. En décembre, Google, Samsung et Qualcomm ont dévoilé Android XR, une version d’Android conçue pour les casques et lunettes intelligentes, qui utilise la caméra et l’assistant Gemini de Google pour répondre à des questions en temps réel sur votre environnement.
Cela marque un tournant par rapport aux méthodes tactiles que nous utilisons actuellement. Bien qu’une période d’adaptation soit nécessaire, les experts estiment que cette évolution pourrait définir l’avenir de l’interaction avec nos appareils mobiles.
Seang Chau, vice-président et directeur général de la plateforme Android de Google, a déclaré dans une récente interview : « La caméra et le retour visuel, que ce soit par le téléchargement d’une photo ou en partageant votre flux de caméra, seront essentiels à l’avenir. »
L’intelligence artificielle et la caméra : un duo prometteur
En 2023, les chatbots d’IA générative, tels que ChatGPT d’OpenAI, ont connu un essor considérable. En 2024, les entreprises technologiques se préparent à la prochaine étape des assistants IA : les agents multimodaux. Cela signifie des assistants virtuels capables de comprendre différentes formes d’entrée (texte, voix, images) et de réaliser des tâches pour vous.
Pensez à la possibilité de scanner une facture de restaurant avec votre téléphone et de demander à un assistant virtuel de diviser le montant entre vos amis et d’ajouter un pourboire. Bien que cette technologie ne soit pas encore complètement développée, Qualcomm a mentionné ce scénario comme un exemple de ce qui pourrait être réalisable dans un futur proche.
Les fondations pour ces assistants futuristes se mettent en place. OpenAI et Google ont amélioré leurs systèmes pour traiter plusieurs types d’entrées. En décembre, OpenAI a mis à jour le mode vocal avancé de ChatGPT pour permettre le partage de vidéo ou de l’écran de votre téléphone avec l’assistant, facilitant ainsi l’interaction sans avoir besoin de télécharger des images. Les projets Android XR et Astra de Google vont encore plus loin en intégrant les caméras dans des casques et lunettes, permettant à l’assistant de vous informer sur les monuments que vous observez ou de résumer un livre dans une librairie.
Dans un signe de l’importance croissante des caméras comme outils de découverte, Apple a introduit une nouvelle fonctionnalité appelée Intelligence Visuelle en décembre. Exclusivement sur la série iPhone 16, cette fonction vous permet d’en apprendre davantage sur votre environnement simplement en appuyant sur un bouton de contrôle de la caméra.
En appuyant sur ce bouton, vous pouvez viser un point d’intérêt et obtenir des informations détaillées à son sujet. Vous avez également la possibilité de capturer une image dans ce mode et de l’envoyer à ChatGPT ou Google pour des tâches variées, telles que la résolution de problèmes mathématiques ou la recherche de produits.
Nabila Popal, directrice senior à l’International Data Corporation, a commenté : « Imaginez combien d’étapes cela nous fait gagner. Être capable de rechercher ou d’obtenir des informations sans avoir à passer par des étapes supplémentaires est un véritable atout. »
Cependant, la question demeure : les utilisateurs seront-ils réellement enclins à adopter ces nouvelles fonctionnalités ? Selon une enquête, 25 % des propriétaires de smartphones estiment que les compétences d’IA ne leur sont pas utiles. Malgré les efforts des entreprises pour susciter l’intérêt pour leurs nouveaux modèles, cela n’incite pas nécessairement à la mise à niveau.
Bien que le marché mondial des smartphones devrait connaître une croissance de 6,2 % en 2024, cette tendance pourrait ralentir en 2025. L’IA, pour sa part, n’est pas perçue comme le moteur principal de cette croissance, selon les experts.
Cette situation peut être due au manque de familiarité des consommateurs avec ces technologies. De nombreuses fonctionnalités d’IA sont encore récentes et ne sont pas perçues comme indispensables pour les smartphones aujourd’hui. L’iPhone 16, présenté comme le premier modèle conçu pour l’Intelligence Apple, a été lancé sans certaines de ses principales fonctionnalités.