Cursor最近上线的Auto-review,本质上是给Agent套了一层风险过滤网。思路不复杂——在每一次工具调用之前,插入一个专门的分类器智能体,由它来判断"这个动作该不该被执行"。分类器会读取当前上下文,把即将发生的操作和用户原本的意图对齐:意图吻合、风险可控就放行;一旦判定高风险,立刻阻止并把解释回传给父智能体,让它换条路走。整个过程跑在Agent循环内部,用的还是小模型,官方说不会带来明显延迟感。
这套机制的关键设计在"不打扰"。Auto-review不是那种动不动就弹窗拦截的保守策略,它瞄准的是真正会炸的雷——读取密钥、动生产数据这类高危场景。Cursor为此搭了一套测试数据:约12小时的内部开发会话产出了6122条标注样本,再叠加上针对危险场景专门合成的数据,用来训练和验证分类器的判断准头。换句话说,它在用真实工作流校准"什么算高危",而不是拍脑袋定阈值。
把Agent监管从"是/否"开关变成可调节的刻度盘,这是Auto-review最有意思的地方。低风险放行保证了开发节奏,高风险拦截+反馈则让父智能体有机会自我修正。对用Cursor写代码的人来说,理解这个底层逻辑很重要:你写的提示词、给Agent的权限边界,会直接影响分类器对"意图一致"的判定。换种说法,Auto-review把一部分安全责任悄悄转嫁给了用户的指令质量——这既聪明,也藏了点新坑。

