mercredi, novembre 27, 2024

Glass suralimente les caméras des smartphones avec l’IA – sans les hallucinations

L’appareil photo de votre téléphone est autant un logiciel que du matériel, et Glass espère améliorer les deux. Mais alors que son objectif anamorphique sauvage arrive sur le marché, la société (qui fonctionne avec 9,3 millions de dollars d’argent frais) a publié une mise à niveau de caméra alimentée par l’IA qui, selon elle, améliore considérablement la qualité de l’image – sans aucun artefact étrange de mise à l’échelle de l’IA.

GlassAI est une approche purement logicielle pour améliorer les images, ce qu’ils appellent un processeur de signal d’image neuronal (ISP). Ce sont essentiellement les FAI qui prennent la sortie brute du capteur – souvent plate, bruyante et déformée – et la transforment en images nettes et colorées que nous voyons.

Le FAI est également de plus en plus complexe, comme aiment le montrer les fabricants de téléphones comme Apple et Google, synthétisant plusieurs expositions, détectant et accentuant rapidement les visages, ajustant les petits mouvements, etc. Et même si beaucoup incluent une forme d’apprentissage automatique ou d’IA, ils doivent être prudents : l’utilisation de l’IA pour générer des détails peut produire des hallucinations ou des artefacts lorsque le système tente de créer des informations visuelles là où il n’en existe pas. De tels modèles « super-résolution » sont utiles à leur place, mais ils doivent être soigneusement surveillés.

Glass fabrique à la fois un système de caméra complet basé sur un élément frontal inhabituel en forme de losange et un FAI pour le sauvegarder. Et tandis que le premier s’efforce d’être présent sur le marché avec certains appareils à venir, le second s’avère être un produit qui mérite d’être vendu à lui seul.

« Nos réseaux de restauration corrigent les aberrations optiques et les problèmes de capteurs tout en éliminant efficacement le bruit, et surpassent les pipelines de traitement du signal d’image traditionnels en matière de récupération de texture fine », a expliqué le CTO et co-fondateur Tom Bishop dans son communiqué de presse.

Animation conceptuelle montrant le processus de passage de l’image RAW à l’image traitée sur verre. Crédits images : Verre

Le mot « récupération » est essentiel, car les détails ne sont pas simplement créés, mais extrait à partir d’images brutes. En fonction du fonctionnement de votre pile de caméras, vous savez peut-être que certains artefacts, angles ou modèles de bruit peuvent être résolus de manière fiable, voire exploités. Apprendre à transformer ces détails implicites en détails réels – ou à combiner les détails de plusieurs expositions – constitue une partie importante de toute pile de photographie informatique. Le co-fondateur et PDG Ziv Attar affirme que leur FAI neuronal est meilleur que n’importe quel autre du secteur.

Même Apple, a-t-il souligné, ne dispose pas d’une pile d’images neuronales complète, ne l’utilisant que dans des circonstances spécifiques où cela est nécessaire, et leurs résultats (à son avis) ne sont pas excellents. Il a fourni un exemple de l’échec du FAI neuronal d’Apple à interpréter correctement le texte, Glass s’en sort bien mieux :

Photo fournie par Ziv Attar montrant un iPhone 15 Pro Max zoomé à 5x et la version traitée par Glass des images RAW du téléphone. Crédits images : Ziv Attar

« Je pense qu’il est juste de supposer que si Apple n’a pas réussi à obtenir des résultats décents, c’est un problème difficile à résoudre », a-t-il déclaré. « Il s’agit moins du stack lui-même que de la façon dont vous vous entraînez. Nous avons une manière tout à fait unique de le faire, qui a été développée pour les systèmes d’objectifs anamorphiques et qui est efficace sur n’importe quel appareil photo. Fondamentalement, nous disposons de laboratoires de formation qui impliquent des systèmes robotiques et des systèmes d’étalonnage optique qui parviennent à entraîner un réseau pour caractériser l’aberration des lentilles de manière très complète et inverser fondamentalement toute distorsion optique.

À titre d’exemple, il a fourni une étude de cas dans laquelle DXO a évalué la caméra d’un Moto Edge 40, puis a recommencé avec GlassAI installé. Les images traitées avec le verre sont toutes nettement améliorées, parfois de façon spectaculaire.

Crédits images : Verre / DXO

À de faibles niveaux de luminosité, le FAI intégré a du mal à différencier les ridules, les textures et les détails du visage en mode nuit. Grâce à GlassAI, c’est aussi net qu’une punaise, même avec la moitié du temps d’exposition.

Vous pouvez aller voir les pixels sur quelques photos de test dont Glass dispose en basculant entre les premières et les finales.

Les entreprises qui assemblent des téléphones et des appareils photo doivent passer beaucoup de temps à régler le FAI afin que le capteur, l’objectif et les autres éléments fonctionnent correctement ensemble pour produire la meilleure image possible. Il semble cependant que le processus unique de Glass pourrait faire un meilleur travail en une fraction du temps.

« Le temps qu’il nous faut pour former des logiciels livrables à partir du moment où nous mettons la main sur un nouveau type d’appareil… cela varie entre quelques heures et quelques jours. Pour référence, les fabricants de téléphones passent des mois à peaufiner la qualité de l’image, avec d’énormes équipes. Notre processus est entièrement automatisé afin que nous puissions prendre en charge plusieurs appareils en quelques jours », a déclaré Attar.

Le FAI neuronal est également de bout en bout, ce qui signifie dans ce contexte qu’il passe directement du capteur RAW à l’image finale sans aucun processus supplémentaire tel que le débruitage, la netteté, etc.

Gauche : RAW, droite : Traitement du verre. Crédits images : Verre

Lorsque j’ai posé la question, Attar a pris soin de différencier son travail des services d’IA à super-résolution, qui prennent une image finie et la mettent à l’échelle. Il ne s’agit souvent pas tant de « récupérer » des détails que de les inventer là où cela semble approprié, un processus qui peut parfois produire des résultats indésirables. Bien que Glass utilise l’IA, elle n’est pas générative comme le sont de nombreuses IA liées à l’image.

Aujourd’hui marque la disponibilité générale du produit, probablement après une longue période de test avec des partenaires. Si vous créez un téléphone Android, il serait peut-être bon de l’essayer au moins.

Du côté matériel, le téléphone doté de l’étrange caméra anamorphique en forme de losange devra cependant attendre que le fabricant soit prêt à être rendu public.

Tandis que Glass développe sa technologie et teste ses clients, elle s’efforce également de rechercher des financements. La société vient de clôturer un « amorçage étendu » de 9,3 millions de dollars, que j’ai mis entre guillemets car le cycle d’amorçage a eu lieu en 2021. Le nouveau financement a été dirigé par GV, avec la participation de Future Ventures, Abstract Ventures et LDV Capital.

Source-146

- Advertisement -

Latest