谷歌DeepMind为Gemini 3 Flash引入“代理视觉”以提高图像分析精度
编辑者: gaya ❤️ one
谷歌DeepMind于2026年初宣布,其Gemini 3 Flash模型已集成一项名为“代理视觉”(Agentic Vision)的新功能,旨在解决传统多模态模型在处理细微视觉数据时存在的局限性。该技术将静态图像处理转变为主动的、工具驱动的迭代式探究过程,通过生成和执行Python代码来精确分析和修正视觉信息,从而显著提升了模型在精细化任务上的准确性。
传统的前沿多模态模型通常采用单次扫描方式处理图像,若初次分析遗漏了如序列号或微小符号等关键细节,模型只能依赖推测性回答,这容易导致“幻觉”的产生。为克服此固有缺陷,谷歌DeepMind引入了Agentic Vision,它构建了一个结构化的“思考-行动-观察”(Think, Act, Observe)循环机制。在“思考”阶段,模型根据用户请求和初始图像制定多步骤计划;在“行动”阶段,模型生成并执行Python代码,实现对图像的精细化操作,例如自动缩放、裁剪或添加注释;最后在“观察”阶段,将处理后的视觉证据反馈至模型的上下文窗口,以支持更可靠的最终判断。
该迭代检查方法的引入带来了性能提升。谷歌团队的结论指出,为Gemini 3 Flash启用代码执行功能,能够在绝大多数视觉基准测试中实现持续的5%至10%的质量增益。一个实际应用案例来自PlanCheckSolver.com,该公司报告称,利用此迭代检验方法,在验证高分辨率建筑蓝图的代码合规性方面,准确率提升了5%。此外,该机制还通过生成Python代码来绘制边界框和数字标签,为多步骤视觉算术或计数任务提供了可验证的“视觉草稿本”,有效避免了传统模型在这些任务中常出现的计数错误。
Agentic Vision的实现依赖于模型对工具的自主使用能力,Python代码执行是首批支持的工具之一。在API层面,开发者可通过Google AI Studio和Vertex AI访问此功能,普通用户则可通过Gemini应用中的“Thinking”模型设置体验。值得注意的是,Gemini 3 Flash本身以速度和效率著称,相比于Gemini 2.5 Pro,在典型流量下平均可节省30%的Token使用量。尽管Agentic Vision的迭代过程可能增加单次请求的处理时间,但其通过精确工具使用带来的效率提升,有望在整体上优化Token消耗。
谷歌DeepMind已明确了Agentic Vision的未来发展路径,旨在增强模型的自主性与工具集。当前,诸如图像旋转或执行视觉数学等功能仍需用户明确提示才能触发,但未来将努力使这些行为完全隐性化,使模型能自主判断何时执行。谷歌正在探索为Gemini模型集成更多工具,包括网络搜索和反向图像搜索功能,以进一步增强其对世界的理解,使视觉推理更具广度和深度。同时,Gemini 3系列模型还引入了精细的 media_resolution
参数控制,允许开发者根据任务需求(如阅读细微文本或识别小细节)在响应质量、延迟和成本之间进行权衡。
2 查看
来源
MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver
阅读更多关于该主题的新闻:
你发现了错误或不准确的地方吗?我们会尽快考虑您的意见。