Google 上周给 Gemini 塞了一个新功能,你对着镜头画个圈,嘴里念叨一句“变个篮球”或者“变个黑洞”,那个潦草的圆圈就真的在画面里长成了你想要的东西。一瞬间,社交媒体上到处都是变披萨、变地球、变猫脸的短视频。所有人都在惊呼好玩,但几乎没有人停下来问一句:这东西,除了发条推特,到底还能干嘛?
问得好。因为至少在目前,它看起来确实更像一个玩具,而不是什么颠覆性的生产力工具。可如果你只把它当成 Google 的又一个营销花招,可能会漏掉水面下真正在移动的东西——多模态 AI 正在从“听得懂”向“看得见、改得了”的阶段过渡,而 Gemini 这次的更新,恰好踩在了那条模糊的界线上。它不伟大,但足够直接。
从画个圈到变出世界,门槛碎了一地
一声令下,潦草被抹掉
这个功能的用法简单到没有任何说明书可言。打开 Gemini 应用,摄像头对着你画画的过程,画完一个闭合的圈,你用语音或文字说一句“当我画完这个圆时,它变成了___”,画面里的圆圈就会被替换成你指定的对象。整个过程不过几秒,没有任何图层、蒙版、关键词权重这些传统创作工具的概念。它就是纯粹的意图表达——我想要这个变那个,Gemini 负责搞定剩下的。
技术上这背后是实时视频理解、语音识别、图像生成和视频合成的一连串协同。但 Google 把所有的复杂度都裹在了一层只有一句话的提示词模板里,用户感知到的只有“画、说、得”。这种极致低门槛的交互设计,本质上是在为多模态能力寻找一种最小可行场景。它不要求你写 prompt,不要求你懂模型,只要求你会画一个全世界最简单的形状。
多模态不是拼积木,是同时发生
很多人会把多模态理解成语音、图像、文字各自独立处理,然后拼在一起输出。但 Gemini Omni 这个功能让人看到一点不一样的东西:输入和输出在时间上是并行的,视频流在走,你的动作在进行,系统的理解和生成发生在同一段连续的时间里。圆圈从你笔下出现的那一刻起,预期就已经在模型内部形成了,最后的替换只是把酝酿好的结果释放出来。
这种实时性才是多模态真正的价值所在。过去我们用 AI 生成图像,需要停下来、打字、等待、再调整。现在你手上的动作本身就是交互的一部分,圆圈画得歪一点儿没关系,画得快慢更无所谓——因为意图的锚点已经由“动作完成”这个天然的时间标记给出了。这才是多模态交互区别于多个单模态模型串联的根本地方:它不是一批数据进来、一批结果出去,而是一个持续流动的感知-生成循环。
创作者的敌人从来不是技能,是阻力
从事创意工作的人都知道,一个想法如果不能在几秒内被抓住,它就会迅速冷却。打开软件、新建画布、选择笔刷、调色盘,这一套动作做下来,脑中的画面可能已经模糊了一半。Gemini 这个画圆功能把从念头到可视结果的路径压缩到了极致——你甚至不需要画得像个东西,只需要画出一个“圈”的符号,剩下的交给系统去填充。
这种极低阻抗的创作通道,在专业创作者眼里也许只是一个小把戏,但它的真正受众并不是那批人。它瞄准的是更广泛的、从来不觉得自己会画画的人群。当一个人发现自己随手画个圈就能马上看到一段视频、一个物体甚至一种氛围时,创作的自我设限就被打开了一个小口子。这口子不大,但足以让很多人第一次觉得,自己也可以“制造”画面而不是只“消费”画面。
谷歌的焦虑,就藏在这个圆圈里
锦上添花之所以是锦上添花,是因为花还太小
客观评价,这次更新在能力层面没有带来任何飞跃。视频理解、图像生成、语音指令这些模块 Gemini 早就具备,这次的“画圆成物”更多是把它们打包成了一个有传播性的交互模板。它并没有让模型变得更聪明,只是在应用层找到了一个极聪明的展示方式。
所以评价两极分化非常合理。普通用户玩得很开心,认为 AI 又往前迈了一大步;技术观察者则觉得这不过是旧酒装新瓶,本质依然是锦上添花。二者都没有错。关键在于,Google 现阶段太需要这种能直接打通用户感知的功能了。在模型能力没有代际跃迁的背景下,产品侧的微创新就成了维持热度的唯一方法。圆圈虽小,但社交网络上的每一次自发传播,都是 Gemini 在与 ChatGPT、Claude 的注意力争夺战中抢到的一个小回合。
追得越紧,越容易暴露产品定位的摇摆
Gemini 这一年来的更新节奏明显加快,界面改版、智能体助手、多模态交互接连推出,但给人的感觉始终是功能点状爆发,缺少一条清晰的主线。这次画圆功能进一步印证了这种感觉:它很酷、很社交、很短视频友好,可一旦把它放进工作流里,就会发现整个故事还缺乏衔接的骨架。
把它和 ChatGPT 的 Canvas、Claude 的 Artifacts 放在同一张桌子上比较,差异就更加刺眼。后两者在试图构建一种更持久、更可编辑、更接近工作成果的交互单元,而 Gemini 依然在到处铺设那种即时反应、用完即走的碎片化体验。这两条路径没有绝对的高下之分,但频繁在这两者之间摇摆,让 Gemini 看起来像一个什么都想做、但什么都还差一口气的追赶者。画圆功能越热闹,这种撕裂感反而越明显。
为什么是圆?因为它不需要任何人学任何东西
选择“圆”作为触发动作,是一个极其精明的产品决策。圆是全世界最基础的图形符号,不依赖文字、不依赖文化背景,甚至不需要运动控制能力有多强。Google 显然下过功夫去思考怎么让多模态的触发条件变得足够普适。他们大可以让你画个五角星,或者写一个字母,但那些都会在某个角落形成门槛。
圆的低摩擦性,把整个交互的启动门槛拉到了地平线以下。这种设计逻辑背后,藏着 Google 对下一阶段 AI 产品形态的判断——未来的模型交互不应该从空白输入框开始,而应该从你正在做的事情中自然地生长出来。画圆只是第一步。接下来我们很可能看到更多的“当你拿起一个物体,它变成了什么”或者“当你指向窗外,天气数据就融进画面”这类场景。到那个时候,AI 的入口就不再是一个 App 图标,而是你手里正在进行的一切。
当表达变得太容易,什么开始变得珍贵
人人能创作,不等于人人能创造价值
技术门槛的坍塌往往伴随着价值重心的转移。当摄影从复杂的化学工艺变成按下快门的一瞬间,好照片的决定因素就不再是暗房技术,而是取景器后面的眼睛。同样的逻辑正在往 AI 创作领域蔓延。Gemini 让每个人都觉得自己可以凭空变出画面,但“能变出来”和“变得有意思”之间,横亘着一条比技术更难跨越的鸿沟——那就是审美判断和叙事本能。
短时间内,我们会看到巨大的内容泡沫。社交媒体上将被大量“画圆变成某物”的短视频冲刷,初期的新奇感将迅速折旧,变成一种可有可无的视觉点缀。真正能从中提炼出持续价值的人,不会是那些用圆圈变篮球的人,而是那些能把它嵌入到更大的表达结构里,用它制造意外、传递情绪、甚至挑战观众期待的人。工具越傻瓜,人的独特视角就越成为唯一的变量。
想象力的通货膨胀已经来了
AI 把“创造”这件事的成本打到了几乎为零。你只需要一个模糊的想法,就能得到一段非常具体的视觉反馈。这听起来很美妙,但也暗藏反噬:当产出画面变得太容易,想象本身的密度反而会被稀释。过去你必须在脑中反复推敲、在草稿上反复涂抹,这个过程虽然缓慢,却恰好是想象力发酵的容器。现在这个容器被抽走了,念头刚冒出来就被外部的生成结果覆盖,人的内部默想能力可能会悄悄萎缩。
这并不是危言耸听。我们已经能在很多 AI 辅助写作、AI 生图的早期用户身上观察到一种现象——他们对初始灵感的依赖越来越强,但对后续深入推演越来越缺乏耐心。圆圈变物的交互恰恰是对这种现象的极致放大:你只需要一个圆圈和一句替换指令,连画第二笔的机会都不给你。所以它越让人上瘾,就越值得警惕。
真正稀缺的,是问出那个填空的能力
Gemini 提示词的模板是“当我画完这个圆时,它变成了___”。整个交互的核心,其实就在那个下划线上。你能填什么,决定了这个功能带给你的价值上限。填“披萨”和填“我童年卧室窗外的黄昏”,得到的完全是两个维度的东西。
绝大多数人会停留在前者,因为大众想象力很容易被最直白的视觉对象捕获。但总有少数人会天然地去试探那个填空的边界,用一句出人意料的话让系统的输出产生语义褶皱。这正是多模态时代最核心的分野——技术给了所有人同一支笔,但有人用它写菜单,有人用它造梦。AI 不会替你成为一个有想象力的人,它只会毫不留情地放大你原本的想象半径。
Google 在这里埋下的,其实不是一条新功能,而是一条测试线。他们在用最轻量的方式,测量普通用户在多模态输入下的表达意愿究竟有多宽。画圆只是一种诱饵,真正在流动的是那根下划线上承载的人类念头。而这,才是任何模型都无法自动生成的东西。

