不讲概念,不拼跑分。通义实验室这次干了件狠事:把大模型扔进一个只有需求文档的真空环境,逼它4小时内交出两套能跑、能用、甚至能安装的App。结果它真做到了。这背后藏着比“AI写代码”更值得琢磨的东西——一套让长程任务可控落地的工程哲学。
从一行代码没写的“产品文档”到可安装的App
15万字的需求,模型怎么“读”?
想象一下,给你一份比许多小说还厚的产品调研文档,里面塞满了市场分析、用户故事、功能描述,但没有一张UI设计图,没有一个接口定义,更没有现成的后端服务。传统开发拿到这个得开多少次需求评审会?Qwen3.7-Max面对的就是这个局面。它不是“阅读”文档,而是“消化”和“建模”。近15万字的自然语言描述,被它解构成一套结构化的功能清单、页面跳转逻辑和数据流猜想。这个过程类似一个资深产品经理在脑中快速搭建产品原型,只不过这个“脑”的载体是千亿参数。
没有眼睛,如何还原界面?
最反直觉的一点来了:模型本身不具备图像理解能力。它根本“看”不懂设计稿长什么样。那Web和移动端的界面怎么出来的?靠的是逆向工程——从像素坐标反推布局约束。这相当于让一个天生的盲人,通过触摸你描述的“按钮在屏幕左下角大概这个位置”这类模糊指令,硬生生把界面“雕刻”出来。它不是在模仿一个视觉设计,而是在解析一套空间和交互的物理规则。这过程必然笨拙,会产生大量布局溢出、组件错位的问题,但关键是,系统容忍这种试错,并有机制兜底。
代码生成只是开始,能跑起来才算数
很多人对AI写代码的想象停留在“生成代码片段”。但交付一个真实应用,远不止于此。这次实验的硬核在于,它设定了一个铁律:最终产物必须是可编译、可运行、可测试的软件包。移动端要生成一个可安装的APK文件,Web端要通过严格的类型检查和生产环境构建。这意味着,模型不仅要写业务逻辑,还要懂工程配置,处理依赖冲突,确保从第一行代码到最终产物的完整链路畅通。这不是“魔法”,而是被极端压力逼出来的工程化能力。
别被“全自动”三个字骗了
看不见的“脚手架”:约束闭环系统
如果真以为是模型一气呵成,那就太天真了。“全自动”仅指人类在四小时内没有进行代码级或设计级的接管。整个流程被一套精密的“分阶段注入约束→逐层验收→带错纠正”的闭环系统牢牢框住。任务被拆解为规划、架构、编码等清晰阶段,每一步完成后,都必须通过一系列机器验收:静态检查找低级错误,编译自检确保零报错,路由完整性测试验证所有34条Web路由可达,最后还要在真机上进行冷启动冒烟测试。这个系统不是辅助,它是主导,是模型能够收敛的唯一原因。
错误不是失败,是系统进化的燃料
传统的软件开发,Bug是需要修复的债务。在这套系统里,错误变成了驱动下一轮迭代的燃料。当某个阶段的验收失败,错误信息会被自动收集并注入到模型的下一轮重试提示中。比如,“按钮A和文本B重叠了”,“路径/product/detail无法访问”。模型基于这些具体的、上下文明确的错误进行修正。这个过程不是简单的“重试”,而是“带错纠正”,让模型在数小时内,像爬坡一样,沿着约束阶梯一点点向上收敛,直至所有验收项全部通过。系统不怕出错,怕的是错误无法被量化和反馈。
4小时背后的真正价值
重新定义“开发”这件事
这次实验提供的最大启示,可能不是“AI能取代程序员”,而是它揭示了AI时代“开发”工作的本质正在迁移。未来,核心能力可能不再仅仅是熟练掌握某个框架或语言,而是如何为AI Agent设计和构建那一套有效的“约束闭环系统”。如何拆分任务,如何定义每一步的验收标准,如何设计错误反馈机制——这些“元技能”将变得至关重要。程序员的角色,可能从“写代码的人”更多地转向“设计系统的人”和“定义规则的人”。这份15万字的产品文档,成了定义这套规则的起点和蓝本。
对AI编程的真实启示
通义实验室没有用最新的榜单分数来炫技,而是选择了一个极其朴素却极端的场景。他们逼问的不是模型“能不能”,而是“如何能”以及“多可靠”。结论很务实:在缺乏强大视觉理解和代码智能体泛化能力的当下,通过精心设计的工程化约束来弥补模型的不足,是一条可行路径。模型不够聪明?那就用更严格的流程来约束它,用更细致的反馈来教导它。这比单纯追求模型参数增长,对产业落地更有直接参考意义。它证明,即使模型本身有短板,一套健壮的工程系统依然能把它推向交付的终点。

