Google DeepMind інтегрує "Агентне Бачення" у Gemini 3 Flash для посилення аналізу зображень
Відредаговано: gaya ❤️ one
На початку 2026 року Google DeepMind реалізувала значну архітектурну зміну в моделі Gemini 3 Flash, впровадивши функцію "Агентне Бачення" (Agentic Vision). Ця інтеграція трансформує традиційний однопрохідний пасивний аналіз зображень на активний, ітеративний процес дослідження, що спирається на візуальні докази. Завдяки вбудованій здатності виконувати код Python, модель тепер може самостійно вдосконалювати своє розуміння, що є критичним для завдань, які вимагають високої точності.
Суть нововведення полягає у впровадженні структурованого циклу "Думай, Дій, Спостерігай" (Think, Act, Observe) у процес обробки візуальних даних. На етапі "Думай" модель формує багатоетапний план на основі запиту користувача та початкового зображення. На етапі "Дій" вона генерує та виконує код Python для активної маніпуляції зображенням — наприклад, масштабування, кадрування чи анотування — або для виконання розрахунків. На етапі "Спостерігай" трансформоване зображення додається до контекстного вікна, дозволяючи моделі генерувати фінальну відповідь на основі поглибленого аналізу.
Цей агентний підхід вирішує фундаментальну проблему попередніх мультимодальних систем, які часто припускалися помилок при роботі з дрібними, але критично важливими візуальними даними, такими як серійні номери чи тонкі лінії на схемах. Завдяки можливості виконання коду, Gemini 3 Flash може автоматично збільшувати масштаб на високоякісних вхідних даних для детального вивчення, що раніше вимагало прямого втручання користувача. Google DeepMind підтверджує, що активація виконання коду забезпечує стабільне підвищення якості на 5–10% у більшості візуальних бенчмарків.
Компанія PlanCheckSolver.com, що спеціалізується на плануванні будівництва, вже застосовує цю ітераційну інспекцію для перевірки високоточних креслень на відповідність будівельним нормам, зафіксувавши приріст точності до 5%. Крім точного виявлення деталей, "Агентне Бачення" відкриває нові можливості для зменшення помилок, пов'язаних з галюцинаціями, у складних завданнях. Модель може використовувати інструменти кодування для візуальної арифметики, наприклад, для підсумовування позицій у чеку або побудови графіків на основі даних із щільних таблиць, перекладаючи обчислювальне навантаження на детерміноване середовище Python.
Також було продемонстровано пряме анотування зображень, коли модель використовує Python для нанесення обмежувальних рамок та числових міток на зображення, створюючи "візуальний чорновик" для забезпечення піксельно точного розуміння. Ця функціональність наразі доступна розробникам через програмні інтерфейси Gemini API у середовищах Google AI Studio та Vertex AI. Архітектурний зсув від пасивного розпізнавання до активного, самокоригованого дослідження позиціонує Gemini 3 Flash як потужний інструмент для вирішення складних завдань у галузях від інженерії до фінансового аналізу. Модель Gemini 3 Flash, як частина сімейства Gemini 3, також відзначається нижчою затримкою та вартістю порівняно з Gemini 3 Pro, що робить її придатною для живлення основного циклу агентних систем.
2 Перегляди
Джерела
MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver
Читайте більше новин на цю тему:
Знайшли помилку чи неточність?Ми розглянемо ваші коментарі якомога швидше.