教皇最近谈 AI,讲得头头是道。但 Gary Marcus 一句话点醒:别被漂亮的输出骗了——你能从一段话倒推出它背后的推理过程吗?几乎不可能。这就是当前 AI 可解释性研究最刺痛神经的那根针,也是我们离“可信 AI”还隔着多远距离的诚实度量。
单纯分析一个模型的最终回答,就像读一个人的日记去还原他的脑电图。文本可以工整、逻辑可以自洽,可驱动它的那颗“脑子”里到底是一串真正的因果推演,还是统计模式里一场华丽的概率游戏,从表面根本看不出来。输出和推理之间没有必然的透明通道。Marcus 把这层窗户纸捅破,直接挑战了业界用事后解释来粉饰模型可解释性的习惯做法。你无法通过反向工程一组精雕细琢的句子,就去还原其中有没有常识、有没有真正的物理直觉、有没有哪怕一丁点对自己不确定性的自觉。这根本不是修辞问题,是架构问题。
大型语言模型最擅长生产连贯叙述,这恰好也是最危险的烟雾弹。当它们越来越能模仿一个深谋远虑的思考者,我们就越容易把“像理解”当成“真理解”。教皇发言引发的好感,恰恰是这种危险的投射——我们误以为能说出智慧话的存在,必然有一套智慧的生成方式。但 Marcus 的观点冷而直接:要判断 AI 是否值得信任,你必须钻到输出的背面,去看它的训练数据、目标函数、甚至每一次梯度更新的痕迹,而非仅仅端详那张堆满微笑的报告单。这条路难走,但没有捷径。任何声称能从输出直接判定推理的说法,都是给不可信系统披上的又一层友好外壳。

