如果你觉得今年 I/O 的 keynote 听着像个产品经理在念技术清单,那八成是睡着了。事实上,Sundar Pichai 今年连“AI 优先”都懒得再提——当整个公司已经泡在 AI 里,口号就成了废话。三小时讲完,12 个时刻被直接扔上台面,从模型基座到语音交互,刀刀都在往实用主义的方向砍。我们不聊愿景,只拆那些真正把竞争推进一步的东西。
模型层的两把快刀:Gemini 3.5 Flash 与合成语音
Flash 不闪,它要的是毫秒级的狠
Google 很清楚,参数量的军备竞赛已经审美疲劳,开发者今年最烦的词是“即将推出”。所以 Gemini 3.5 Flash 的出现,完全不是来当花瓶的。它瞄着的是 推理延迟 这个所有轻量级模型都不敢碰的硬骨头。现场演示了一个在本地手机端跑复杂数学题的场景,从读题到拆解题干、给出分步推导,全程在 400 毫秒以内收工——不是云端抠出来的一截,是真端侧算力。这意味着什么?那些嫌弃 Gemini 1.5 Flash 在实时对话里还会顿一下的开发者,可以重新把 Agent 应用捡起来了。Gorilla 基准跑分提升了 32%,但真正让我在椅子上坐直的是它的工具调用能力:API 参数生成的幻觉率直接砍半。这刀下去,OpenAI 的 GPT-4o mini 和 Anthropic 的 Claude Haiku 都得重新测自己的竞品表。
合成语音不再是“读出来”,而是把语气塞进 token
过去我们把语音和语义当成两套系统在跑,但 Google 这次直接用 Gemini 原生的合成语音模型 把水流并到了一起。不是 TTS 外挂,是模型在生成文本的同时就产出了对应的语调、停顿、情感起伏的声学特征。我留意到一个细节:Demo 里让模型给一个刚丢了工作的人打气,那句“it's okay to feel lost”中间的停顿和气息,不是预先录制的,是即时推理出的情感韵律。这让客服、教育、陪伴类产品的门槛一下塌了半截。而且,它支持 12 种语言的情感迁移,中文断句的犹豫感都模仿得相当到位。多模态这件事,Google 终于补上了嘴和耳朵之间的那条缝。
Gemini Omni 落地:把多模态塞进每个人的指尖
视频编辑不用再“学一门手艺”
最让我觉得 Google 这次真开窍的,是 Gemini Omni 视频编辑功能直接向印度市场开放。不再是北美用户的特权,而是涌入 14 亿移动用户最密集的地区。你上传一段孩子踢足球的杂乱素材,只需要说“把进球那段加个慢动作,背景光线调暖一点”,模型自己完成跟踪、裁剪、调色三件套,输出一条 15 秒的 Instagram Reels。这背后是 跨模态时序理解 的突破:模型要同步听懂你的自然语言指令、识别视频里的物体运动关键帧、并理解剪辑节奏。过去这需要 Final Cut 加剪辑师,现在一句语音搞定。YouTube Shorts 创作者们可以集体开香槟了。
搜索栏开始听懂你的“第四句话”
同一套 Omni 架构被植入 Google Lens 和搜索框中。现场展示了一位用户在宜家拍下一把椅子,追问“有没有同款但不带扶手、适合 45 厘米高餐桌的版本”。这已经是连续第四轮追问,但系统依然准确提取了所有约束条件,并直接唤出购物清单和尺寸对比图。Google 把这种能力叫做“持续多模态查询”,我把它翻译成人话:搜索不再是一次性的快门,而是一场带着眼睛和记忆的连续对话。电商和内容平台的推荐引擎要挨一记重拳了。
Agent 不再只停在 Demo 里:Android 上的毛细血管渗透
AI 助手接管了你的“确认按钮”
今年 I/O 最不显眼但最要命的更新,藏在 Android 的辅助功能里。基于 Gemini 3.5 Flash 的轻量推理能力,系统级的 AI Agent 可以在后台直接帮你填表格、处理预约确认、甚至跨应用比价。它不再弹出一个啰嗦的对话框问你“需要我做这个吗”,而是用一种浮动胶囊的形式,悄悄问一句“已经帮你把这周的酒店比价完了,要订评分最高那家吗?”——用户只需点一下。这步棋,把 Agent 从“聊天机器人玩具”正式拉进了系统工具的序列。Siri 和 Bixby 看了估计要连夜开会。
隐私沙盒里的 AI 推理
端侧处理这么猛,隐私问题自然绕不开。Google 搬出了与三星合作定制的下一代的 TPU 加速模块,把 Gemini 3.5 Flash 的部分推理任务锁在设备的安全飞地中,连 Google 自己都碰不到那些原始数据。这在银行和医疗类应用的集成中,会是一张关键通行证。我甚至可以想象明年 MWC 上,三星会拿这个点猛打苹果的云端 AI 隐私缺陷。
开发者手里的新积木:AI Studio 与 MCP 服务器
从 Prompt 到生产级 Agent,只隔着一个侧边栏
AI Studio 这次的改版动作很大,不再是给爱好者玩的 Prompt 沙盒,而是一个完整的多 Agent 编排界面。我注意到一个新功能:你可以直接把 MCP 服务器的连接配置拖进流程里,然后调试时就能看到你的 Agent 是怎么一步步调用外部 API、抓取实时汇率、再推算出最优结汇时机的。这对金融科技开发者是实打实的生产力提升。Google 还顺手开源了一个 Google Pay & Wallet Developer MCP server,支付集成直接变成自然语言对代理的指令。两年前我们还在一行行写回调,如今是跟代理说“帮我加上支付并处理差错”。开发者的手,就这样被一步步松开。
Firebase 的 AI 糖衣:逻辑直接变成 API 端点
不太高调但影响深远的,是 Firebase 引入的 AI 逻辑节点。你甚至不用部署函数,直接描述一段任务逻辑,Firebase 就能把它变成一个可调用的端点,并自动处理弹性伸缩。这对于独立开发者和创业团队来说,等于把后端成本又压下去一块。Google 的云战略越来越清楚:硬核工具链都交给 AI 去消化,人类只负责定义目标和验收结果。
那几张没有发出来的牌,更值得我们咂摸
硬件缺席背后的供应链信号
整场大会没提新手机、没提新平板,甚至 Pixel 都没捎带一句。这不是疏忽,而是一种底气。当 AI 能力已经从硬件卖点变成水电般的存在,再拿手机当锚点就显得格局小了。但反过来看,这或许也暗示着 Google 自家的芯片路线还在爬坡——TPU 的迭代只轻描淡写带过,下一代 Tensor 只字未提。留给 Pixel 10 的悬念,反而变大了。
多模态的终极形态:世界模型还远吗
把所有发布连起来看,你会得到一个清晰的公式:轻量推理+跨模态对齐+系统级权限+全球分发。这不是一个聊天机器人的升级,而是一整个“感知-推理-行动”闭环的下放。Google 正在把每一台安卓设备变成这个闭环的神经末梢。世界模型的概念在会场一句没提,但当你的手机能听懂你的第四句话、看懂你的视频、还帮你自动操作时,世界模型其实已经悄悄住进了口袋。

