Google DeepMind интегрирует «Агентное Зрение» в Gemini 3 Flash для итеративного анализа изображений
Отредактировано: gaya ❤️ one
Компания Google DeepMind представила существенное обновление для своей модели Gemini 3 Flash, внедрив функциональность под названием «Агентное Зрение» (Agentic Vision). Это нововведение трансформирует обработку визуальной информации из однократного пассивного анализа в активный, итеративный процесс, основанный на выполнении кода Python для получения верифицируемых визуальных доказательств.
Данная архитектурная перемена призвана преодолеть ограничения традиционных мультимодальных систем, которые часто не справляются с мелкими, но критически важными деталями, такими как серийные номера или тонкие символы, поскольку они обрабатывают изображения за один статический проход. Механизм Агентного Зрения функционирует по структурированному циклу «Мысль, Действие, Наблюдение» (Think, Act, Observe). На этапе «Мысль» модель анализирует запрос и исходное изображение, формулируя многоэтапный план действий. На этапе «Действие» она генерирует и выполняет код Python для активной модификации изображения, например, для увеличения масштаба или кадрирования, что заменяет вероятностное угадывание верифицируемым исполнением.
Наконец, на этапе «Наблюдение» трансформированное изображение добавляется в контекстное окно модели для дальнейшего, более обоснованного ответа. Внедрение выполнения кода в Gemini 3 Flash обеспечивает стабильный прирост качества в диапазоне от 5 до 10 процентов по большинству эталонных тестов зрения, согласно данным Google. Этот количественный показатель имеет существенное значение для производственных нагрузок, где точность в задачах, требующих внимания к деталям, является первостепенной.
В качестве примера практического применения приводится стартап PlanCheckSolver.com, платформа для проверки соответствия строительных чертежей нормам, который зафиксировал повышение точности до 5 процентов благодаря использованию этого итеративного метода инспекции. Агентное Зрение также позволяет модели взаимодействовать со средой посредством аннотирования изображений, что служит «визуальным черновиком» для повышения надежности. Например, при подсчете объектов модель использует Python для прорисовки ограничивающих рамок и числовых меток, гарантируя ответ, основанный на пиксельной точности.
Функциональность Агентного Зрения доступна разработчикам через API в Google AI Studio и на платформе Vertex AI, что подчеркивает ее ориентацию на интеграцию в сложные рабочие процессы. В будущем Google планирует расширить инструментарий Агентного Зрения, добавив возможности использования веб-поиска и обратного поиска изображений для еще более глубокого «заземления» понимания мира.
Модель Gemini 3 Flash в целом демонстрирует высокую производительность, сочетая интеллект уровня Pro с низкой задержкой и стоимостью. Ранее Gemini 3 Flash показала результат 78% на бенчмарке SWE-bench Verified для оценки возможностей кодирующих агентов, превзойдя Gemini 3 Pro. Это позиционирование, как наиболее экономически жизнеспособной модели передового уровня, теперь подкреплено новым уровнем точности в мультимодальных задачах благодаря Агентному Зрению.
2 Просмотров
Источники
MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver
Читайте больше новостей по этой теме:
Вы нашли ошибку или неточность?Мы учтем ваши комментарии как можно скорее.