Google I/O 2026:Flash 这次值得仔细看

Google I/O 2026:Flash 这次值得仔细看

 

Google I/O 2026 上发了 Gemini 3.5 Flash。被定位成“轻量快速版”的小模型,在 Terminal-Bench 编码测试上拿了 76.2%,超过了上一代旗舰 Gemini 3.1 Pro 的 70.3%。SWE-Bench 真实软件工程任务上拿了 55.1%,对比 3.1 Pro 是 54.2%。MCP Atlas 多步 Agent 工作流 83.6%,3.1 Pro 是 78.2%。

速度 289 tokens/s,比 Claude Opus 4.7 和 GPT-5.5 快 4 倍以上。价格 $1.50/百万 token 输入、$9.00/百万 token 输出,比 3.1 Pro 便宜 40%。

旗舰能力下放给了默认模型。这件事本身比发布旗舰更值得看一眼。

Flash 强在哪、又输在哪

把 Flash 的反超数据和落后数据放一起看,事情才说得清楚。

它在 Humanity’s Last Exam(世界知识考试)上拿了 40.2%,输给 Pro 的 44.4%。在 ARC-AGI-2(抽象推理)上拿 72.1%,输给 Pro 的 77.1%。这两个 benchmark 测的是”知识广度”和”抽象推理深度”。

但同一个模型在编码(Terminal-Bench 76.2%)、真实软件工程任务(SWE-Bench 55.1%)、多步 Agent 工具调用(MCP Atlas 83.6%)三个维度上全面反超 Pro。速度还快 4 倍,价格还便宜 40%。

也就是说,Google 主动让 Flash 在“考试型 benchmark”上输给自家旗舰,把腾出来的能力全部押在“干活型 benchmark”上。

Google 自己在发布会上也没把这层取舍讲明白。PR 稿的写法是“Flash 在多个 benchmark 上反超 Pro”,没人愿意主动说“我们刻意让 Flash 在 HLE 和 ARC-AGI-2 上更弱”。但产品做久了的人都知道,真正难的不是“再加一个能力”,是“决定砍掉哪个能力”。Flash 输掉的那两个 benchmark,才是它现在这套能力组合能成立的原因。

Cursor 那组 75%

Google 押 Flash,跟 Cursor 在企业里看到的曲线有关。

Michael Truell 公开过一组数据:Cursor 的企业客户里,AI 生成代码的比例一年内从 15–20% 跳到了 75%。同时 Cursor 内部 30% 的 PR 已经由 agent 独立完成,工程师只做 review。

调用频次变了。模型不再是“偶尔问一个问题”,是“持续不断地被调用”。当一天发起几万次请求、当一次任务要 agent 在后台跑几小时——单次能力不再是主要约束,单次成本 × 调用频次才是。

100 万 token 上下文窗口在这个语境里才有意义。整个代码库、整份合同、整本技术文档可以一次塞进去,省掉切分和索引那一整套 RAG 工程。Flash 的速度让 agent 不会卡在中间环节,价格让大规模调用不至于成本失控。

Pro 在这个用法下太贵、太慢。Flash 不是“够用就行的小模型”,是 Google 给“被持续调用”这个新场景做的专用模型。

同一场发布会发的 Omni Flash,实测拉了

Google 同一场发布会还发了 Gemini Omni Flash,宣传语是“a new model that can create anything from any input”——任何输入生成任何输出。

发布会前的推特预热让我期待值拉满了。视频生成是 Google 唯一被认为能跟 Seedance 2.0 打一打的产品线,很多 AI 漫剧团队把它当作最后的希望。

我跑了一个 10 秒的小视频。中文口音一股港台腔,画面质量不如 Seedance 2.0。推特上有条评论说得直接:

“Seems worse than seedance 2.0”

确实是这个感觉。

不过 Omni Flash 有一个功能值得记一下:支持保持视频中某一个片段不变,只修改其他部分。视频创作工作流里,“局部不变、其他重改”是个真的痛点。这个功能比“一键生成好莱坞大片”那种宣传点更有用。

所以同一场发布会里出现了一个反差:Flash 让人觉得 Google 想明白了什么,Omni Flash 让人觉得 Google 还有不少没想明白。两个都得看。

落到开发者手上是什么

Flash 今天直接成为 Gemini App 和 AI Mode in Search 的默认模型。同步开放 API、AI Studio、Antigravity。

选型逻辑会变。以前看排行榜第一名,现在看 Agent 工作流里的综合性价比——编码能力 × 工具调用能力 × 速度 × 价格的乘积。MCP Atlas 83.6% + 289 tokens/s + $1.50/百万 token 这三个数字放在一起,对一个要做 agent 类应用的开发者意义远大于“HLE 高几分”。

100 万 token 上下文加上这个价格,门槛降下来了一截。以前一个想法可能要团队 + 一笔预算才能验证,现在一个人 + 一个周末可能就能跑出 demo。不会突然冒出一堆 Cursor 级别的工具,但能跑通“agent 端到端做完一件事”的小项目会显著变多。

同时 Omni Flash 的落差也是个提醒:通用 Agent 能接住日常任务,垂直专业能力还是要靠 Cursor、Seedance 这类垂直工具。Google 的“全家桶 + 默认模型”路线在轻量场景上会很有压力,但在专业深度上短期里追不上垂直产品。两条路会并存。

Gemini App 现在默认就是 3.5 Flash。

作者:Hedy

扫一扫 微信咨询

联系我们 青瓜传媒 服务项目

商务合作 联系我们

本文经授权 由青瓜传媒发布,转载联系作者并注明出处:https://www.opp2.com/381650.html

《免责声明》如对文章、图片、字体等版权有疑问,请联系我们广告投放 找客户 找服务 蘑菇跨境
企业微信
运营大叔公众号
运营宝库
运营宝库H5