Gemini Omni可将草图变为现实

发布时间： 2026-05-30 文章分类： AI前沿技术

阅读量： 0

Google 上周给 Gemini 塞了一个新功能，你对着镜头画个圈，嘴里念叨一句“变个篮球”或者“变个黑洞”，那个潦草的圆圈就真的在画面里长成了你想要的东西。一瞬间，社交媒体上到处都是变披萨、变地球、变猫脸的短视频。所有人都在惊呼好玩，但几乎没有人停下来问一句：这东西，除了发条推特，到底还能干嘛？

问得好。因为至少在目前，它看起来确实更像一个玩具，而不是什么颠覆性的生产力工具。可如果你只把它当成 Google 的又一个营销花招，可能会漏掉水面下真正在移动的东西——多模态 AI 正在从“听得懂”向“看得见、改得了”的阶段过渡，而 Gemini 这次的更新，恰好踩在了那条模糊的界线上。它不伟大，但足够直接。

从画个圈到变出世界，门槛碎了一地

一声令下，潦草被抹掉

这个功能的用法简单到没有任何说明书可言。打开 Gemini 应用，摄像头对着你画画的过程，画完一个闭合的圈，你用语音或文字说一句“当我画完这个圆时，它变成了___”，画面里的圆圈就会被替换成你指定的对象。整个过程不过几秒，没有任何图层、蒙版、关键词权重这些传统创作工具的概念。它就是纯粹的意图表达——我想要这个变那个，Gemini 负责搞定剩下的。

技术上这背后是实时视频理解、语音识别、图像生成和视频合成的一连串协同。但 Google 把所有的复杂度都裹在了一层只有一句话的提示词模板里，用户感知到的只有“画、说、得”。这种极致低门槛的交互设计，本质上是在为多模态能力寻找一种最小可行场景。它不要求你写 prompt，不要求你懂模型，只要求你会画一个全世界最简单的形状。

多模态不是拼积木，是同时发生

很多人会把多模态理解成语音、图像、文字各自独立处理，然后拼在一起输出。但 Gemini Omni 这个功能让人看到一点不一样的东西：输入和输出在时间上是并行的，视频流在走，你的动作在进行，系统的理解和生成发生在同一段连续的时间里。圆圈从你笔下出现的那一刻起，预期就已经在模型内部形成了，最后的替换只是把酝酿好的结果释放出来。

这种实时性才是多模态真正的价值所在。过去我们用 AI 生成图像，需要停下来、打字、等待、再调整。现在你手上的动作本身就是交互的一部分，圆圈画得歪一点儿没关系，画得快慢更无所谓——因为意图的锚点已经由“动作完成”这个天然的时间标记给出了。这才是多模态交互区别于多个单模态模型串联的根本地方：它不是一批数据进来、一批结果出去，而是一个持续流动的感知-生成循环。

创作者的敌人从来不是技能，是阻力

从事创意工作的人都知道，一个想法如果不能在几秒内被抓住，它就会迅速冷却。打开软件、新建画布、选择笔刷、调色盘，这一套动作做下来，脑中的画面可能已经模糊了一半。Gemini 这个画圆功能把从念头到可视结果的路径压缩到了极致——你甚至不需要画得像个东西，只需要画出一个“圈”的符号，剩下的交给系统去填充。

这种极低阻抗的创作通道，在专业创作者眼里也许只是一个小把戏，但它的真正受众并不是那批人。它瞄准的是更广泛的、从来不觉得自己会画画的人群。当一个人发现自己随手画个圈就能马上看到一段视频、一个物体甚至一种氛围时，创作的自我设限就被打开了一个小口子。这口子不大，但足以让很多人第一次觉得，自己也可以“制造”画面而不是只“消费”画面。

谷歌的焦虑，就藏在这个圆圈里

锦上添花之所以是锦上添花，是因为花还太小

客观评价，这次更新在能力层面没有带来任何飞跃。视频理解、图像生成、语音指令这些模块 Gemini 早就具备，这次的“画圆成物”更多是把它们打包成了一个有传播性的交互模板。它并没有让模型变得更聪明，只是在应用层找到了一个极聪明的展示方式。

所以评价两极分化非常合理。普通用户玩得很开心，认为 AI 又往前迈了一大步；技术观察者则觉得这不过是旧酒装新瓶，本质依然是锦上添花。二者都没有错。关键在于，Google 现阶段太需要这种能直接打通用户感知的功能了。在模型能力没有代际跃迁的背景下，产品侧的微创新就成了维持热度的唯一方法。圆圈虽小，但社交网络上的每一次自发传播，都是 Gemini 在与 ChatGPT、Claude 的注意力争夺战中抢到的一个小回合。

追得越紧，越容易暴露产品定位的摇摆

Gemini 这一年来的更新节奏明显加快，界面改版、智能体助手、多模态交互接连推出，但给人的感觉始终是功能点状爆发，缺少一条清晰的主线。这次画圆功能进一步印证了这种感觉：它很酷、很社交、很短视频友好，可一旦把它放进工作流里，就会发现整个故事还缺乏衔接的骨架。

把它和 ChatGPT 的 Canvas、Claude 的 Artifacts 放在同一张桌子上比较，差异就更加刺眼。后两者在试图构建一种更持久、更可编辑、更接近工作成果的交互单元，而 Gemini 依然在到处铺设那种即时反应、用完即走的碎片化体验。这两条路径没有绝对的高下之分，但频繁在这两者之间摇摆，让 Gemini 看起来像一个什么都想做、但什么都还差一口气的追赶者。画圆功能越热闹，这种撕裂感反而越明显。

为什么是圆？因为它不需要任何人学任何东西

选择“圆”作为触发动作，是一个极其精明的产品决策。圆是全世界最基础的图形符号，不依赖文字、不依赖文化背景，甚至不需要运动控制能力有多强。Google 显然下过功夫去思考怎么让多模态的触发条件变得足够普适。他们大可以让你画个五角星，或者写一个字母，但那些都会在某个角落形成门槛。

圆的低摩擦性，把整个交互的启动门槛拉到了地平线以下。这种设计逻辑背后，藏着 Google 对下一阶段 AI 产品形态的判断——未来的模型交互不应该从空白输入框开始，而应该从你正在做的事情中自然地生长出来。画圆只是第一步。接下来我们很可能看到更多的“当你拿起一个物体，它变成了什么”或者“当你指向窗外，天气数据就融进画面”这类场景。到那个时候，AI 的入口就不再是一个 App 图标，而是你手里正在进行的一切。

当表达变得太容易，什么开始变得珍贵

人人能创作，不等于人人能创造价值

技术门槛的坍塌往往伴随着价值重心的转移。当摄影从复杂的化学工艺变成按下快门的一瞬间，好照片的决定因素就不再是暗房技术，而是取景器后面的眼睛。同样的逻辑正在往 AI 创作领域蔓延。Gemini 让每个人都觉得自己可以凭空变出画面，但“能变出来”和“变得有意思”之间，横亘着一条比技术更难跨越的鸿沟——那就是审美判断和叙事本能。

短时间内，我们会看到巨大的内容泡沫。社交媒体上将被大量“画圆变成某物”的短视频冲刷，初期的新奇感将迅速折旧，变成一种可有可无的视觉点缀。真正能从中提炼出持续价值的人，不会是那些用圆圈变篮球的人，而是那些能把它嵌入到更大的表达结构里，用它制造意外、传递情绪、甚至挑战观众期待的人。工具越傻瓜，人的独特视角就越成为唯一的变量。

想象力的通货膨胀已经来了

AI 把“创造”这件事的成本打到了几乎为零。你只需要一个模糊的想法，就能得到一段非常具体的视觉反馈。这听起来很美妙，但也暗藏反噬：当产出画面变得太容易，想象本身的密度反而会被稀释。过去你必须在脑中反复推敲、在草稿上反复涂抹，这个过程虽然缓慢，却恰好是想象力发酵的容器。现在这个容器被抽走了，念头刚冒出来就被外部的生成结果覆盖，人的内部默想能力可能会悄悄萎缩。

这并不是危言耸听。我们已经能在很多 AI 辅助写作、AI 生图的早期用户身上观察到一种现象——他们对初始灵感的依赖越来越强，但对后续深入推演越来越缺乏耐心。圆圈变物的交互恰恰是对这种现象的极致放大：你只需要一个圆圈和一句替换指令，连画第二笔的机会都不给你。所以它越让人上瘾，就越值得警惕。

真正稀缺的，是问出那个填空的能力

Gemini 提示词的模板是“当我画完这个圆时，它变成了___”。整个交互的核心，其实就在那个下划线上。你能填什么，决定了这个功能带给你的价值上限。填“披萨”和填“我童年卧室窗外的黄昏”，得到的完全是两个维度的东西。

绝大多数人会停留在前者，因为大众想象力很容易被最直白的视觉对象捕获。但总有少数人会天然地去试探那个填空的边界，用一句出人意料的话让系统的输出产生语义褶皱。这正是多模态时代最核心的分野——技术给了所有人同一支笔，但有人用它写菜单，有人用它造梦。AI 不会替你成为一个有想象力的人，它只会毫不留情地放大你原本的想象半径。

Google 在这里埋下的，其实不是一条新功能，而是一条测试线。他们在用最轻量的方式，测量普通用户在多模态输入下的表达意愿究竟有多宽。画圆只是一种诱饵，真正在流动的是那根下划线上承载的人类念头。而这，才是任何模型都无法自动生成的东西。

点赞 | 42

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。