Découvrez notre autre site sur l’IA : Numerika

L’ère de l’investigation active: adieu à la vision statique

Le 27 janvier 2026 marque l’introduction officielle de l’Agentic Vision, une capacité qui promet de transformer radicalement la manière dont les modèles d’IA traitent les informations visuelles. Dans cet article, je vais vous expliquer pourquoi cette fonctionnalité est si révolutionnaire, comment elle utilise l’exécution de code pour « penser » et « agir » sur les images, et quels cas d’usage concrets sont déjà disponibles via l’API et Google AI Studio.

La vision agentique de Gemini 3 Flash: qu’est-ce que c’est?

Historiquement, les modèles d’IA de frontière comme Gemini percevaient le monde en un seul coup d’œil statique. Si un détail fin – comme un numéro de série minuscule ou un panneau de signalisation éloigné – était manqué, le modèle était contraint de deviner la réponse. L’Agentic Vision met fin à cette passivité. Elle convertit la compréhension des images d’un acte statique à un processus agentique.

C’est une transformation fondamentale : la vision devient une véritable enquête active. En combinant le raisonnement visuel avec l’exécution de code – le premier outil pris en charge –, le modèle peut formuler des plans pour zoomer, inspecter et manipuler les images étape par étape. Selon Google DeepMind, cette capacité offre un gain de qualité constant de 5 à 10 % sur la plupart des tests de référence visuels.

Le nouveau cycle « penser, agir, observer »

L’Agentic Vision introduit une boucle d’action qui rappelle celle d’un chercheur méticuleux :

  • Penser: Le modèle analyse la requête de l’utilisateur et l’image initiale, puis formule un plan d’action en plusieurs étapes.
  • Agir: Le modèle génère et exécute du code Python pour manipuler activement les images (recadrage, rotation, annotation) ou les analyser (calculs, comptage de boîtes englobantes, etc.).
  • Observer: L’image transformée est ajoutée au contexte du modèle. Cela permet au modèle d’inspecter les nouvelles données avec un contexte enrichi avant de produire une réponse finale. C’est le cœur de l’Agentic Vision.

Les preuves concrètes de l’agentivité en action

En activant l’exécution de code via l’API, les développeurs débloquent des comportements jusqu’alors impossibles. Voici, selon mon observation des démonstrations en ligne, les cas d’usage les plus impressionnants.

1. Zoomer et inspecter avec précision

Gemini 3 Flash est désormais entraîné à zoomer implicitement pour détecter les détails fins. J’ai été marqué par l’exemple de PlanCheckSolver.com, une plateforme de validation de plans de construction. En utilisant l’exécution de code, leur plateforme a amélioré sa précision de 5 %.

Le modèle génère du code Python pour recadrer et analyser des sections spécifiques (comme les bords du toit). En renvoyant ces recadrages dans son contexte, le modèle ancre visuellement son raisonnement, ce qui lui permet de confirmer la conformité avec des codes du bâtiment extrêmement complexes.

2. Annotation et « pense-bête » visuel

L’Agentic Vision permet au modèle d’interagir avec son environnement en annotant directement les images. Au lieu de simplement décrire ce qu’il voit, Gemini 3 Flash exécute du code pour dessiner sur la toile afin de fonder son raisonnement. Dans une démonstration, le modèle devait compter les doigts sur une main. Pour éviter les erreurs, il a utilisé Python pour dessiner des boîtes englobantes et des étiquettes numériques sur chaque doigt identifié. Ce « pense-bête visuel » garantit que la réponse est basée sur une compréhension pixel-perfect.

3. Mathématiques et visualisation fiables

C’est peut-être l’avancée la plus critique : l’Agentic Vision élimine les hallucinations arithmétiques. Les grands modèles de langage classiques inventent souvent des résultats lors de calculs visuels complexes. Gemini 3 Flash contourne ce problème en déléguant le calcul à un environnement Python déterministe.

Par exemple, le modèle peut identifier des données brutes dans un graphique, écrire du code pour les normaliser et générer un graphique à barres professionnel avec Matplotlib. Cela remplace les devinettes probabilistes par une exécution vérifiable. Je considère cette capacité indispensable pour toute analyse de données visuelles.

Mon point de vue sur la suite et comment commencer

Ce n’est que le début. Google DeepMind prévoit de rendre de plus en plus de comportements implicites (comme la rotation ou les mathématiques visuelles qui nécessitent encore un « coup de pouce » explicite) et d’équiper les modèles Gemini d’outils supplémentaires, notamment la recherche web et la recherche d’images inversée.

Si vous êtes développeur, l’Agentic Vision est disponible dès aujourd’hui via l’API Gemini dans Google AI Studio et Vertex AI. Vous pouvez l’essayer en activant « Code Execution » dans les Outils du Playground AI Studio. Je vous encourage fortement à tester cette fonctionnalité : elle marque, à mon avis, un tournant décisif dans l’IA multimodale.

En savoir plus

Posted in

Laisser un commentaire