Gemini 3 Flash 整合代理式視覺能力強化圖像理解
编辑者: gaya ❤️ one
Google DeepMind 近期為其 Gemini 3 Flash 模型導入了「代理式視覺」(Agentic Vision)功能,此更新標誌著圖像理解的處理模式從單次被動分析轉變為主動、迭代的工具使用循環。此項技術旨在解決傳統多模態模型在處理細微視覺數據時的限制,例如難以準確辨識序列號或模糊的標誌。
代理式視覺的核心機制建立在結構化的「思考、行動、觀察」(Think, Act, Observe)迴圈之上,使模型能夠依據視覺證據來鞏固最終判斷。在「思考」階段,模型分析用戶查詢與初始圖像,擬定多步驟行動計畫。接著在「行動」階段,模型會生成並執行 Python 代碼,對圖像進行精確的轉換與檢查,例如自動縮放至更高解析度、裁剪特定區域或進行圖像註釋,這與傳統模型僅能單次掃描圖像的限制形成對比。
Google 團隊的內部評估顯示,為 Gemini 3 Flash 啟用代碼執行功能後,在大多數視覺基準測試中帶來了穩定且一致的 5% 至 10% 品質提升。此迭代檢視方法已在實際應用中展現價值,例如專注於建築規劃的新創公司 PlanCheckSolver.com 報告稱,透過使用此類迭代檢查方法,其準確性獲得了高達 5% 的增益,尤其適用於高解析度藍圖的法規合規性檢查。
此更新同時展示了迭代縮放、直接圖像註釋以及視覺繪圖等新的代理行為,其中視覺繪圖被認為有助於減少視覺數學任務中常見的幻覺問題。代理式視覺的實施,本質上是將模型轉化為一個能夠自我修正和精煉的視覺分析師,這對於需要極高精確度的生產級視覺工作負載至關重要。此能力現已可透過 Google AI Studio 中的 Gemini API 以及 Vertex AI 平台存取。
將視覺推理與代碼執行相結合的架構,代表了大型模型處理視覺任務的一個重大轉變,從被動識別轉向主動探究。Google 計劃持續擴展代理式視覺的功能,包括增加更多隱含的代碼驅動行為,使目前需要明確提示的功能(如圖像旋轉或計數)能自動化執行,並將此能力擴展至更多不同尺寸的模型中。此趨勢與當前學術界對代理式多模態大型語言模型(Agentic MLLMs)的研究方向一致,即透過外部工具調用擴展模型的解決問題能力。
2 浏览量
來源
MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver
閱讀更多有關此主題的新聞:
发现错误或不准确的地方吗?我们会尽快处理您的评论。