Voir un curseur se déplacer seul sur un écran, cliquer sur des boutons et scroller sans aucune intervention humaine provoque un sentiment étrange, mêlant fascination technologique et malaise viscéral. Le 28 janvier 2026, Google a déployé une mise à jour majeure de Chrome intégrant Gemini 3 via un panneau latéral, introduisant une fonctionnalité baptisée Auto Browse. Loin de se contenter de générer du texte, cette version de l'IA est capable de voir la page, de repérer des éléments interactifs et d'agir comme une extension numérique de l'utilisateur. Cependant, derrière ce spectacle impressionnant se cache une réalité plus contrastée, faite de lenteur, de limites de sécurité et de restrictions d'accès qui nous rappellent que l'avenir de l'automatisation web en est encore à ses balbutiements.

Une souris qui bouge toute seule : la première fois que Gemini prend le volant
Il est difficile de rester indifférent face à la scène d'un curseur qui s'anime sur un écran sans qu'aucune main ne touche la souris. Lors des démonstrations organisées par Google, cette autonomie visuelle crée un impact psychologique immédiat, rappelant les premières expériences de conduite autonome. On observe l'IA hésiter, avancer, puis finalement accomplir sa mission avec une précision dérangeante. C'est le point d'entrée émotionnel de cette technologie : elle brise le lien direct entre l'intention humaine et l'action physique sur l'interface. Auto Browse ne se contente pas de suggérer, elle agit, et ce spectacle place le spectateur dans une position d'observateur plutôt que d'acteur. Cette fonctionnalité, accessible via le panneau latéral de Chrome, transforme le navigateur en un exécuteur capable de manipuler le web à notre place, ouvrant la voie à une nouvelle ère de l'automatisation numérique.
La démo Etsy : quand Gemini commande sans vous demander
La démonstration la plus parlante de cette capacité concerne une séquence d'achat sur la plateforme Etsy, rapportée par PCMag. La scène met en scène une chaîne d'actions complexes que Gemini enchaîne de manière autonome. L'IA commence par analyser une image reçue dans un mail Gmail, identifiant un objet spécifique. Sans intervention, elle ouvre ensuite un nouvel onglet, se dirige vers Etsy et tape une recherche personnalisée « Y2K Party » pour trouver des articles correspondants au style visuel de l'image originale. Elle parcourt alors les résultats, analyse les vignettes, et finit par ajouter un article au panier. Ce qui impressionne ici, c'est la fluidité apparente du processus : l'IA ne suit pas un script préenregistré, elle comprend le contexte de l'image, adapte sa requête et navigue sur l'interface d'e-commerce comme un humain le ferait. Tout est orchestré étape par étape, sans raccourci, démontrant une compréhension spatiale et fonctionnelle du web qui dépasse de loin la simple recherche de mots-clés.

Le vertige du clic délégué : pourquoi ça dérange même quand ça marche
Voir un assistant numérique cliquer à sa place génère un sentiment de perte de contrôle, même lorsque l'action est souhaitée. Ce vertige du clic délégué s'apparente à la sensation ressentie dans une voiture équipée d'un système de conduite autonome de niveau 2 : les mains sont lâchées sur le volant, mais le regard reste fixé sur la route, prêt à reprendre le contrôle à la moindre anomalie. L'utilisateur sait qu'il a lancé la commande, mais l'intermédiaire numérique introduit une distance entre sa volonté et l'exécution. On se sent à la fois soulagé de ne pas avoir à effectuer les tâches répétitives et inquiet de l'autonomie prise par le système. Ce malaise psychologique est fondamental : il signale que nous confions à la machine non seulement une tâche intellectuelle, mais aussi une capacité motrice sur le monde numérique. C'est la preuve que la frontière entre l'outil et l'agent est en train de s'effacer, nous laissant dans une posture d'attente passive que nous maîtrisons encore imparfaitement.
Comment utiliser Gemini pour commander un Uber sur Android
Si la démonstration sur Chrome est impressionnante sur ordinateur, c'est sur smartphone que l'usage devient le plus concret pour le grand public. Google a étendu ces capacités d'automatisation à Android via une fonctionnalité bêta révélatrice des nouvelles ambitions de l'assistant. Un appui long sur le bouton d'alimentation suffit désormais pour demander à Gemini de réaliser des tâches complexes qui nécessitaient auparavant de multiples manipulations, comme nous l'indique le blog officiel de Google. Concrètement, l'utilisateur peut dicter une commande de repas chez DoorDash ou demander une réservation de véhicule via Uber, et l'IA s'occupe de tout en arrière-plan. Cette approche mobile répond directement à une question centrale : en quoi cette IA est-elle capable aujourd'hui de faire ce que mon assistant actuel ne peut pas faire ? La réponse réside dans sa capacité à agir en profondeur au sein des applications tierces, transformant le téléphone en véritable chef d'orchestre personnel.

Uber et DoorDash en arrière-plan : la promesse du multitâche délégué
Le scénario précis offert par cette fonctionnalité Android change radicalement la donne en matière de productivité mobile. L'utilisateur dicte sa demande, par exemple « Commande mon dîner habituel chez DoorDash », et Gemini prend le relais. L'intelligence artificielle ouvre l'application, sélectionne les plats, vérifie l'adresse et valide la commande, le tout pendant que l'utilisateur continue à utiliser son téléphone pour autre chose, répondre à un message ou consulter ses réseaux sociaux. C'est la première fois qu'un assistant Google va au-delà de la simple redirection vers une application ou de la lecture d'une information. Ici, il y a une véritable exécution de tâche en arrière-plan, libérant l'attention de l'utilisateur. Ce multitâche délégué est la promesse ultime de l'IA personnelle : ne plus être l'opérateur qui clique, mais le superviseur qui valide les résultats. Cette évolution pourrait d'ailleurs s'appliquer à d'autres domaines, transformant notre rapport aux applications quotidiennes.
Pourquoi Gemini ne clique jamais sur « Payer »
Malgré cette autonomie croissante, Google a fixé une limite rouge infranchissable pour l'instant : la validation finale des actions sensibles. Comme l'a rapporté PCMag, pour toute opération critique comme finaliser un achat, valider un paiement ou publier un contenu sur un réseau social, Auto Browse s'arrête systématiquement. L'IA remplit le panier, rédige le message ou prépare le virement, mais elle laisse à l'humain la responsabilité de cliquer sur le bouton final. Cette règle de sécurité est la preuve que Google assume un risque limité mais pas total. Si l'IA se trompe de restaurant, l'inconvénient est mineur, mais si elle effectue un paiement frauduleux, les conséquences sont sérieuses. Cette étape de validation manuelle agit comme un « garde-fou » psychologique et technique. Elle rassure l'utilisateur sur le fait qu'il reste le décideur ultime, tout en profitant de l'automatisation pour 90 % du processus fastidieux.
Pourquoi Auto Browse est-il lent et limité ?
Après avoir admis la puissance potentielle de l'outil, il est crucial de confronter le lecteur à la réalité de son fonctionnement actuel. L'expérience de l'automatisation par Gemini est loin de la fluidité cinématographique que l'on pourrait imaginer. Les retours des premiers tests, notamment ceux de PCMag et de LesNumériques, dressent un tableau sans appel : l'IA est lente. Très lente. Lors des démonstrations, les journalistes ont noté que l'agent semblait prendre son temps pour traiter la demande. Ce décalage entre la promesse d'une autonomie totale et la réalité d'une exécution pataude est essentiel pour comprendre le stade de développement de cette technologie. On est loin d'une réactivité immédiate ; chaque action semble requérir une réflexion laborieuse, nous ramenant brutalement aux limitations techniques actuelles de l'IA générative appliquée à l'agence web.
Le syndrome Jarvis : quand chaque clic prend une éternité
Pour bien comprendre l'impact de cette lenteur, il faut visualiser ce que « plusieurs secondes avant chaque action » signifie dans une navigation réelle. Imaginez une tâche qui nécessite une quinzaine d'interactions : ouvrir un onglet, accepter les cookies, taper une recherche, scroller pour trouver le bon lien, cliquer, cocher une case, remplir un champ texte, etc. Un utilisateur humain accomplirait cette séquence en trente à quarante-cinq secondes, guidé par son habitude et sa connaissance intuitive des interfaces. Avec Jarvis, le nom de code interne de ce projet chez Google, chacune de ces micro-étapes prend plusieurs secondes de latence. L'attente devient exponentielle. Ce qui serait une corvée de quelques minutes pour un humain se transforme en une session de plusieurs minutes d'observation passive face à un écran où rien ne semble se passer. L'utilisateur perd le bénéfice de la rapidité, qui est pourtant la raison principale d'automatiser une tâche. C'est le paradoxe actuel de l'IA : elle sait faire, mais elle ne sait pas faire vite.

Pourquoi le cloud rend chaque geste laborieux
Cette lenteur n'est pas un défaut de conception anecdotique, mais une conséquence structurelle de l'architecture de Jarvis. Contrairement à une macro locale classique, qui suit un chemin pré-programmé enregistré sur l'appareil, Auto Browse repose entièrement sur le cloud. Chaque action nécessite un aller-retour constant vers les serveurs puissants de Google. L'IA doit d'abord scanner le contenu visuel de la page web active, l'envoyer pour analyse, comprendre le contexte visuel et sémantique, déterminer l'action pertinente, puis transmettre l'ordre d'exécution au navigateur. Ce cycle continu de prise de décision et d'analyse en direct confère à la technologie une impressionnante intelligence, car elle ne se limite pas à exécuter un script prédéfini. Cependant, c'est précisément ce processus qui rend son fonctionnement laborieux et lent. Aucun élément n'étant préenregistré, tout est généré instantanément, ce qui inévitablement ajoute une latence réseau à chaque action de la souris. C'est le coût nécessaire pour une intelligence artificielle capable de « comprendre » réellement ce qu'elle voit, plutôt que de simplement simuler des clics aveugles.
Quelle est la différence entre un assistant et un agent IA ?
Face à ces limites techniques, on pourrait être tenté de minimiser l'importance d'Auto Browse, mais il serait dangereux de sous-estimer le saut paradigmatique qu'elle représente. Il est désormais nécessaire de replacer cette innovation dans le paysage existant des assistants virtuels. Siri, Google Assistant classique, ou même Alexa ont dominé la dernière décennie en se positionnant comme des interfaces conversationnelles. Ils savent répondre à des questions, donner la météo, définir un mot ou rediriger vers une application spécifique. Aucun d'eux, cependant, ne possède la capacité de naviguer sur le web à votre place pour accomplir une tâche multi-étapes complexe. Gemini Auto Browse marque l'avènement de l'ère de l'IA « agentic », où le logiciel passe du statut d'encyclopédie interactive à celui d'exécuteur personnel. Cette distinction change tout : on ne demande plus seulement de l'information, on délègue de l'action.
Du « je cherche » au « j'agis » : le saut paradigmatique
L'histoire de la recherche en ligne illustre parfaitement cette gradation technologique. En 2004, Google Search a révolutionné l'accès à l'information en trouvant la page web pertinente pour l'utilisateur. En 2016, Google Assistant a franchi un palier en lisant la réponse directement à voix haute, économisant un clic. Aujourd'hui, en 2026, Gemini Auto Browse accomplit la dernière étape : il exécute la tâche. Chaque étape a permis d'éliminer un geste humain, réduisant la friction entre l'intention et le résultat. Avec un assistant classique, pour comparer des vols, vous deviez écouter les propositions, puis ouvrir votre navigateur, taper les dates, comparer les prix et réserver. Avec un agent comme Gemini, vous dites « Trouve-moi le meilleur vol pour Paris la semaine prochaine », et l'IA va sur les sites, compare les horaires, les tarifs et les escales, et vous présente l'option idéale prête à être validée. C'est la transition d'un rôle informatif à un rôle exécutif, qui redéfinit la valeur ajoutée des assistants numériques.

Quelles tâches Gemini peut-il accomplir à votre place ?
Pour saisir l'utilité concrète de cet agent, il faut regarder la liste des tâches spécifiques qu'il est capable d'enchaîner. Selon les analyses de Le Monde Informatique, les capacités d'Auto Browse touchent directement au cœur des corvées administratives et organisationnelles. L'IA peut rechercher et comparer des vols ou des hôtels sur différentes dates, en triant les résultats selon le budget ou la durée. Elle peut remplir des formulaires complexes, un véritable cauchemar pour beaucoup, en récupérant des données depuis des documents locaux. La gestion des documents fiscaux, la collecte de devis pour des travaux, ou encore la gestion des abonnements en ligne (résilier, renouveler, modifier) sont autant de scénarios où l'agent apporte une valeur ajoutée indéniable. C'est cette capacité à enchaîner des actions contextuelles, en croisant les données de Gmail, de Google Drive ou de l'agenda, qui rend l'outil potentiellement indispensable malgré sa lenteur actuelle. L'IA ne se contente pas de chercher, elle gère la paperasse numérique.
Quels sont les risques de sécurité de Gemini Auto Browse ?
L'enthousiasme pour cette nouvelle autonomie doit toutefois être tempéré par une ombre au tableau : la sécurité. Accorder à une IA la permission de contrôler son navigateur et d'interagir avec des sites web sensibles implique une surface d'attaque considérablement élargie. Un incident récent, mis en lumière par ZDNet, a servi de rappel brutal à cette réalité. La vulnérabilité, référencée sous le code CVE-2026-0628, a été découverte dans l'environnement Chrome Gemini. Elle démontrait comment les promesses de l'automatisation peuvent se transformer en cauchemar de confidentialité si les garde-fous ne sont pas absolus. Déléguer son navigateur, c'est en quelque sorte remettre les clés de sa maison numérique à un robot, et il est crucial de comprendre ce qui peut mal tourner si ce robot est détourné.
CVE-2026-0628 : comment une extension a failli pirater le panneau Gemini
Le mécanisme de cette faille critique est à la fois simple et terrifiant pour les soucis de vie privée. La vulnérabilité CVE-2026-0628 permettait à une extension malveillante, installée par l'utilisateur ou via une faille de sécurité tierce, d'injecter du code JavaScript directement dans le panneau latéral de Gemini. Une fois ce code injecté, l'attaquant pouvait potentiellement bénéficier de toutes les permissions élevées accordées à l'assistant Google. Cela inclut l'accès à la webcam pour voir l'utilisateur, l'accès au microphone pour l'écouter, la capture d'écran en temps réel, et l'accès aux fichiers locaux stockés sur l'appareil. Bien que cette faille ait été corrigée depuis la mise à jour Chrome 143.0.7499.192, son existence même illustre un nouveau type de risque. Le panneau Gemini n'est pas un simple affichage de texte, c'est une passerelle vers le système matériel de l'utilisateur, et sa sécurisation doit être impérative.
Quand l'IA devient la porte d'entrée idéale pour les attaquants
Cette situation met en lumière une logique structurelle inévitable : plus un assistant numérique dispose de permissions étendues pour nous être utile, plus il devient une cible de choix pour les attaquants. Un chatbot classique qui ne génère que du texte présente peu de risques s'il est compromis. En revanche, un agent qui remplit vos formulaires fiscaux, paie vos factures et gère vos comptes bancaires est intrinsèquement dangereux s'il tombe sous le contrôle d'une entité malveillante. Les navigateurs « agentic » créent de nouvelles surfaces d'attaque complexes. La confiance accordée à l'IA pour agir en notre nom constitue le point faible fondamental du système. Si l'intelligence artificielle possède la capacité de réaliser n'importe quelle tâche pour nous, elle détient aussi le pouvoir de réaliser ces mêmes actions contre nous si elle venait à être détournée. C'est la raison pour laquelle les limitations d'accès et les validations finales par l'humain, comme le clic de confirmation sur « Payer », resteront des composants essentiels de l'écosystème de sécurité pour les années à venir.

Quel est le prix et la disponibilité de l'IA Auto Browse ?
Au-delà des aspects techniques et sécuritaires, la réalité commerciale d'Auto Browse impose une limitation brutale à son adoption massive. Contrairement à une mise à jour logicielle classique disponible pour tous, cette fonctionnalité d'automatisation est enfermée derrière un mur payant et une disponibilité géographique restreinte. Auto Browse n'est pas une fonctionnalité grand public pour l'instant. Elle est réservée aux abonnés des formules Google AI Premium, et même parmi ceux-ci, l'usage est rationné de manière draconienne. Ce choix stratégique de Google rappelle que l'infrastructure nécessaire pour faire « réfléchir » une IA dans le cloud à chaque clic coûte cher en ressources de calcul. Pour l'utilisateur lambda, cela signifie que l'ère de la délégation totale du clic n'est pas pour demain, et certainement pas gratuite.
Pro à 20$, Ultra à 250$ : le prix de la délégation de clics
L'accès à Auto Browse est segmenté en deux niveaux d'abonnement. L'offre Pro, facturée aux alentours de 20 dollars par mois, permet d'effectuer seulement 20 requêtes par jour. L'offre Ultra, destinée aux power users ou aux entreprises, grimpe à 250 dollars par mois pour un plafond de 200 requêtes quotidiennes. Concrètement, cela signifie qu'à 20 dollars par mois, Auto Browse est un outil à utiliser avec parcimonie, pour des tâches occasionnelles lourdes comme la planification de vacances ou la déclaration d'impôts, mais certainement pas pour naviguer au quotidien. À raison de 20 requêtes, si l'on demande à l'IA de comparer trois vols, de rechercher un hôtel et de remplir deux formulaires, on a déjà épuisé son quota. Cette limitation transforme l'IA en un outil de luxe plutôt qu'en assistant omniprésent. C'est un frein psychologique et économique qui rappelle que la puissance de calcul a un coût.
Disponibilité : pourquoi la France n'est pas dans la course
Si l'accès sur ordinateur est payant, la situation sur mobile est encore plus restrictive. La fonctionnalité bêta sur Android, qui permet de commander un Uber ou un repas par appui long, n'est disponible que sur les téléphones haut de gamme récents : le Galaxy S26 de Samsung et la gamme Pixel 10, 10 Pro et 10 Pro XL de Google. De plus, ce déploiement est initialement circonscrit aux États-Unis et à la Corée du Sud. Pour les utilisateurs français et européens, l'attente sera donc plus longue. Ce choix n'est pas seulement technologique, il est aussi réglementaire. Google teste d'abord son agent sur son propre écosystème matériel et dans des juridictions moins strictes en matière de protection des données personnelles. L'Europe, avec le RGPD, impose des barrières supplémentaires pour les technologies qui traitent des données utilisateurs aussi sensibles que l'historique de navigation ou les données bancaires. Par conséquent, même si la technologie est prête, les barrières légales et commerciales empêchent son déploiement immédiat sur notre territoire.
Conclusion : Serviteur ou envahissant, le clic que l'on ne fera plus (peut-être) jamais
L'aventure d'Auto Browse illustre parfaitement le paradoxe central des technologies d'automatisation avancée. Techniquement, c'est l'une des fonctionnalités les plus impressionnantes qu'un assistant IA ait jamais intégrées dans un navigateur grand public. Voir une machine comprendre une requête naturelle, naviguer sur des sites web qu'elle n'a jamais vus et accomplir une tâche complexe est un moment de science-fiction devenu réalité. Pourtant, sa lenteur actuelle, ses restrictions d'accès coûteuses et les risques de sécurité inhérents nous ramènent brutalement à la réalité du terrain. Nous sommes encore au stade de la preuve de concept, une phase fascinante mais frustrante où l'on voit le futur sans pouvoir le toucher pleinement.
L'année 2026 pourrait bien marquer un point de bascule similaire à celui de 2016 pour la conduite autonome. À cette époque, les premières démos promettaient un monde sans volant, suscitant un mélange d'excitation et de peur. Aujourd'hui, la promesse est là, mais l'exécution reste hésitante et imparfaite. La lenteur d'Auto Browse n'est pas un échec, c'est le prix de la première version. Elle nous montre la direction, mais nous rappelle que la route sera longue avant une fluidité totale. Tout comme les voitures autonomes ont dû apprendre à gérer des conditions météo imprévisibles et des comportements humains erratiques, les agents IA comme Jarvis devront apprendre à naviguer dans le chaos du web, avec ses pop-ups, ses chargements lents et ses interfaces mal conçues.
En définitive, Auto Browse représente une technologie fondamentale qui change notre rapport au web, transformant la navigation active en supervision passive. Pourtant, malgré son potentiel vertigineux, elle demandera encore des mois, voire des années, avant d'être utilisable au quotidien par le grand public. Il reste à résoudre les défis de la latence, du coût et, surtout, de la confiance. Lorsque cette fonctionnalité sera enfin rapide, abordable et disponible en France, une question subsistera : serez-vous prêt à céder le clic ?