欢迎光临,我们是一家专注中小型企业营销推广服务的公司!

咨询热线:400 9868 577
淮南兰乔电子商务有限公司
新闻中心News
淮南兰乔电子商务有限公司

谷歌 Gemini 3 Flash 新增“Agentic Vision”功能:将视觉推理与代码执行相结合

作者:花韻仙語 | 点击: | 来源:花韻仙語
2801
2026
谷歌正式推出Gemini3Flash的全新视觉智能模块AgenticVision,目标是让AI在图像理解上更贴近人类专家的分析逻辑,而非简单地“扫一眼就作答”。传统AI视觉模型普遍采用“单次快照式”理解:输入一张图,模型即刻输出判断。然而面对高密度信息或极细微特征(如远距离标识、微缩文字等)时,这种静态方式常导致识别偏差或遗漏关键细节。AgenticVision的突破在于构建了一套类人推理驱动的视觉工作流——模型不再被动接收图像,而是像专业技术人员那样,以“规划干预复验”的闭环...

谷歌正式推出 gemini 3 flash 的全新视觉智能模块 agentic vision,目标是让 ai 在图像理解上更贴近人类专家的分析逻辑,而非简单地“扫一眼就作答”。

传统 AI 视觉模型普遍采用“单次快照式”理解:输入一张图,模型即刻输出判断。然而面对高密度信息或极细微特征(如远距离标识、微缩文字等)时,这种静态方式常导致识别偏差或遗漏关键细节。

Agentic Vision 的突破在于构建了一套类人推理驱动的视觉工作流——模型不再被动接收图像,而是像专业技术人员那样,以“规划→干预→复验”的闭环方式进行深度视觉解析。

  1. Think(规划):模型结合用户指令与原始图像,自主生成一套分阶段的视觉分析策略。
  2. Act(干预):通过动态编写并运行 Python 脚本,执行图像裁剪、角度校正、区域标注、对象计数等精准操作。
  3. Observe(复验):将处理后的图像作为新输入纳入上下文,模型基于增强后的视觉证据进行二次推理与最终作答。

这种“观察→操作→再观察”的迭代式视觉推理机制,使 Gemini 在多项复杂图像任务中的准确率平均提升 5–10%。

目前,Agentic Vision 已集成至 Gemini AI Studio 与 Vertex AI 平台,并可通过 Gemini API 调用。后续还将逐步上线 Gemini App 的“Thinking 模式”,面向终端用户开放。开发者仅需在相关工具中开启“Cod

e Execution”(代码执行)选项,即可激活该能力。

相关推荐
我要咨询做网站
成功案例
建站流程
  • 网站需
    求分析
  • 网站策
    划方案
  • 页面风
    格设计
  • 程序设
    计研发
  • 资料录
    入优化
  • 确认交
    付使用
  • 后续跟
    踪服务
  • 400 9868 577
    info#ilanqiao.cn
Hi,Are you ready?
准备好开始了吗?
那就与我们取得联系吧

咨询送礼现在提交,将获得兰乔电子商务策划专家免费为您制作
价值5880元《全网营销方案+优化视频教程》一份!
下单送礼感恩七周年,新老用户下单即送创业型空间+域名等大礼
24小时免费咨询热线400 9868 577
合作意向表
您需要的服务
您最关注的地方
预算

直接咨询