Dans une mer Parmi les gadgets compatibles avec l’IA au CES, le lapin r1 (tous en minuscules, insistent-ils) se distingue non seulement par son travail de peinture haute visibilité et son facteur de forme unique, mais aussi par son dévouement au mors. La société espère que vous emporterez un deuxième appareil avec vous pour vous éviter d’avoir à ouvrir votre téléphone – et a déployé des efforts techniques extraordinaires pour le faire fonctionner.
L’idée derrière le R1 à 200 $ est simple : il vous permet de garder votre téléphone dans votre poche lorsque vous devez effectuer une tâche simple, comme commander une voiture chez vous, rechercher quelques endroits où manger où vous rencontrez des amis ou en trouver. options d’hébergement pour un week-end sur la côte.
« Nous n’essayons pas de tuer votre téléphone », a déclaré le PDG et fondateur Jesse Lyu lors d’un appel avec la presse avant le salon technologique de Las Vegas. « Le téléphone est un appareil de divertissement, mais si vous essayez d’accomplir quelque chose, ce n’est pas la machine la plus efficace. Pour organiser un dîner avec un collègue, nous avions besoin de quatre à cinq applications différentes pour travailler ensemble. Les grands modèles linguistiques constituent une solution universelle pour le langage naturel. Nous voulons une solution universelle pour ces services : ils devraient simplement être capables de vous comprendre.
Au lieu de retirer votre téléphone, de le déverrouiller, de trouver l’application, de l’ouvrir et de parcourir l’interface utilisateur (c’est laborieux !), vous retirez le r1 et lui donnez une commande en langage naturel :
« Appelez un Uber XL pour nous emmener au Musée d’Art Moderne. »
« Donnez-moi une liste de cinq restaurants bon marché à moins de 10 minutes à pied de là. »
« Répertoriez les chalets pour six adultes les mieux notés sur Airbnb dans un rayon de 16 km de Seaside, pour un maximum de 300 $ la nuit. »
Le r1 fait ce que vous lui demandez et fournit quelques secondes plus tard une confirmation et tout le contenu que vous auriez pu demander.
Cela vous semble familier, n’est-ce pas ? Après tout, c’est ce que nos soi-disant « assistants IA » sont censés faire depuis cinq ou six ans. « Siri, fais ceci », « Hey Google, fais ça. » Tu as raison! Mais il y a une seule différence majeure.
Siri, Google Assistant, Alexa et tout le reste seraient mieux décrits comme des « interfaces vocales pour mini-applications personnalisées », pas du tout comme les modèles de langage avec lesquels beaucoup d’entre nous ont commencé à discuter au cours de l’année dernière. Lorsque vous demandez à Google de vous amener un Lyft à votre emplacement actuel, il utilise l’API Lyft officielle pour envoyer les informations pertinentes et obtient une réponse. Il s’agit essentiellement de deux machines qui communiquent entre elles.
Non pas qu’il y ait quelque chose de mal à cela, mais ce que vous pouvez faire via l’API est souvent très limité. Et bien sûr, il faut qu’il y ait une relation officielle entre l’assistant et l’application, une connexion validée et payante. Si une application que vous aimez ne fonctionne pas avec Siri ou si l’API à laquelle Alexa a accès est obsolète, vous n’avez tout simplement pas de chance. Et qu’en est-il d’une application de niche trop petite pour obtenir un accord officiel avec Google ?
Ce que Rabbit a conçu s’inscrit davantage dans la lignée des IA de type « agent » que nous avons vues apparaître au cours de l’année dernière, des modèles d’apprentissage automatique formés sur des interfaces utilisateur ordinaires telles que des sites Web et des applications. En conséquence, ils peuvent commander une pizza non pas via une API Domino dédiée, mais de la même manière qu’un humain le ferait : en cliquant sur des boutons et des champs ordinaires sur une application Web ou mobile ordinaire.
La société a formé son propre « grand modèle d’action » ou LAM sur d’innombrables captures d’écran et vidéos d’applications courantes, et par conséquent, lorsque vous lui dites de lire un ancien album de Bob Dylan sur Spotify, il ne se perd pas à mi-chemin. Il sait aller sur la page des artistes de Dylan, organiser les albums par date de sortie, faire défiler vers le bas et mettre en file d’attente l’un des plus anciens. Ou quelle que soit la manière dont vous le faites.
Vous pouvez voir le processus dans la vidéo de Rabbit ici.
Il sait déjà comment travailler avec un tas d’applications et de services courants, mais si vous en avez un qu’il ne connaît pas, Rabbit affirme que le R1 peut apprendre simplement en vous regardant utiliser l’application pendant un moment – bien que ce mode d’enseignement ne fonctionne pas. ne sera pas disponible au lancement. (Lyu a dit qu’ils l’avaient fait fonctionner dans Diablo 4, donc il peut probablement gérer AllTrails.)
Mais bien sûr, le R1 ne peut pas appuyer seul sur ces boutons dans l’application – d’une part, il n’a pas de doigts pour les appuyer, et d’autre part, il n’a pas de compte. Pour le deuxième problème, Rabbit a mis en place ce qu’il appelle « Rabbit Hole », une plate-forme sur laquelle vous activez des services avec vos identifiants de connexion, qui ne sont pas enregistrés. Une fois qu’ils sont actifs, le serveur fait fonctionner l’application en appuyant sur des boutons ordinaires, comme vous le feriez, mais dans un environnement émulé (ils n’étaient pas très précis à ce sujet).
« Pensez-y comme si vous confiiez votre téléphone à votre assistant », a déclaré Lyu, supposant généreusement que nous connaissons tous cette commodité particulière. « Tout ce que nous faisons, c’est demander à ce truc d’appuyer sur des boutons pour vous. Et tout ce qu’ils voient dans leur back-end, c’est que vous essayez de faire des choses. C’est parfaitement légal et conforme à leurs conditions de service.
Plus petit, moins cher, plus rapide
L’entreprise a clairement consacré beaucoup de travail à l’aspect technique, mais la vraie question est de savoir si quelqu’un voudra réellement transporter cet objet en plus d’un téléphone. Son prix est de 200 $, sans abonnement, mais vous devrez fournir une carte SIM. C’est moins cher que les AirPod et cela fait beaucoup de promesses amusantes.
Une chose qui a clairement un avantage est le look. Comme si la Playdate avait un cousin fondateur de startup qui conduisait une Tesla rouge vif avec des plaques de vanité (vous connaissez le type). Il a été conçu par Teenage Engineering, qui fabrique à peu près tout ce qui vaut la peine d’être possédé de nos jours.
Vous vous demandez peut-être pourquoi y a-t-il un écran sur quelque chose à qui vous êtes censé parler ? Eh bien, l’écran est nécessaire pour vous montrer des éléments visuels comme les résultats de ses recherches ou pour confirmer votre emplacement. Je suis partagé ici. On se demande, comment vas-tu faire autrement ? L’autre pense : si vous avez besoin de confirmer tout cela en premier lieu, pourquoi ne pas simplement utiliser le téléphone dans votre autre poche ?
De toute évidence, l’équipe de Rabbit pense que faire apparaître ce petit gadget (3″x3″x0,5″) et léger (115 grammes) et dire ce que vous voulez, puis utiliser la molette de défilement et le bouton pour parcourir les résultats, est une expérience plus simple. que d’utiliser l’application dans de nombreux cas. Et je peux voir à quel point cela pourrait être vrai : de nombreuses applications sont mal conçues et présentent désormais également le danger supplémentaire des publicités.
Mais pourquoi la caméra ? C’est une fonctionnalité sur laquelle je n’ai pas pu obtenir de réponse claire. Il possède un intéressant axe magnétique/flottant, ce qui lui permet de tourner pour être de niveau et pointer dans la direction que vous souhaitez. Il semble y avoir certaines fonctionnalités à venir qui ne sont pas encore tout à fait prêtes à être déployées – pensez « combien de calories y a-t-il dans ce sac de bonbons ? » ou « qui a conçu ce bâtiment? » et ce genre de chose. Des appels vidéo et les réseaux sociaux pourraient être à venir.
L’appareil est maintenant disponible en précommande et Lyu a déclaré qu’il prévoyait d’être expédié aux États-Unis à la fin du mois de mars.
Une compétition effrayante
La grande question en fin de compte, cependant, n’est pas de savoir si le lapin r1 réussit ce qu’il entreprend – d’après ce que je peux dire, il y parvient – mais si cette approche est viable face à des forces extrêmement puissantes. concours.
Google, Apple, Microsoft, OpenAI, Anthropic, Amazon, Meta – chacun d’entre eux et bien d’autres travaillent dur pour créer chaque jour des agents d’apprentissage automatique plus puissants. Le plus grand danger pour le lapin n’est pas que personne ne l’achètera, mais qu’en six mois, une entreprise valant cent milliards de dollars fabrique son propre agent d’action qui fait 80 % de ce que fait le lapin et le rend accessible gratuitement sur votre ordinateur. téléphone intelligent.
J’ai demandé à Lyu si c’était un souci pour lui et son entreprise, qui, avec 17 salariés, n’est pas tout à fait à la même échelle.
« Bien sûr, nous sommes inquiets », a-t-il répondu, « Nous sommes une startup. Mais ce n’est pas parce qu’ils peuvent le faire que nous devons arrêter. »
Il a souligné que malgré leurs vastes ressources, ces entreprises n’ont pas non plus l’agilité d’une startup, qui expédie aujourd’hui ce qu’elle pourrait expédier une partie plus tard, ainsi que les données. Les modèles linguistiques, a-t-il souligné, sont « basés sur une recette ouverte : cinq articles, c’est tout ». Il y a peu de possibilités d’y créer des douves. Mais le LAM de Rabbit repose sur des données propriétaires et vise une expérience utilisateur très spécifique sur un appareil très spécifique.
Même ainsi, même si le lapin r1 est meilleur ou plus mignon, les gens préfèrent la simplicité et la commodité. Pourquoi paieraient-ils de l’argent pour transporter un deuxième appareil alors que le premier effectue la plupart de ces tâches ? À court terme, la réponse est oui : Lyu a déclaré que les précommandes s’accumulaient. Le lapin vivra-t-il pour produire la prochaine génération, vraisemblablement la r2 ? Même s’ils ne le font pas, ce petit appareil brûlant pourrait perdurer dans notre mémoire en tant qu’exemple suffisamment ambitieux de l’air du temps à la mode en matière d’IA.