五个小动物在一片森林里讨生活,各自种地、砍柴、养蜂,然后互相交易。15轮下来,蜂蜜价格腰斩,柴火价格翻倍,贫富差距从几乎平等飙到中度不平等。这不是寓言故事——这是一个3B参数的小语言模型驱动的多智能体经济模拟。3B,不是30B,不是300B。一块7B显卡都绑不满的小模型,硬是搭出了一个看得见市场规律的微型经济体。
五只小动物,一座经济体
森林里住着谁
这个模拟系统里有五个角色:浆果采集者、蜂蜜采集者、蘑菇采集者、伐木工,还有一个专门做买卖的商人。每个角色都是一个独立的智能体,有自己的库存、自己的生产节奏、自己的交易策略。它们共享一片森林,共享一个市场,但各自做各自的决定。浆果采集者不会替伐木工操心柴火够不够,商人也不会管蜂蜜是不是快烂了。模拟每推进一轮,所有角色同时行动:先生产,再交易,最后算账。
3B模型凭什么上桌
很多人第一反应:做智能体,怎么也得上个70B吧?3B能干什么?开发者的答案很直接:能干什么不重要,能稳定输出什么才重要。这套系统用的是Qwen2.5-3B,通过vLLM部署在Modal平台上,前端用Gradio做交互。整套技术栈不复杂:vLLM负责推理加速,Modal提供弹性算力,Gradio给人一个能看的界面。开发者在博客里反复强调一件事——这个模型在100%的调用中都输出了有效的JSON。不是99%,是100%。
这听起来像废话,但对多智能体系统来说,这是命门。五个智能体每轮都要同时请求模型,输出结构化的决策数据。格式错一个括号,解析失败,整轮模拟就崩了。小模型做这件事反而比大模型稳——参数少、行为可预测、出错的概率低。至于决策质量,那是另一个话题,后面慢慢聊。
格式化很可靠,推理很玄学
先解决"能不能用"的问题
小模型做智能体,第一道坎不是"它聪不聪明",而是"它听不听话"。你让它输出JSON,它会不会给你吐一段散文?你让它填特定字段,它会不会自作主张加几个字段?Qwen2.5-3B的回答是:不会。在无数次测试中,这个模型始终按格式输出,字段名正确、嵌套结构正确、没有多余内容。这种可预测性来自约束解码——不是靠提示词让它"好好输出JSON",而是在输出层直接限制它的token选择,让它只能生成合法的JSON结构。
这意味着一个很实际的问题被解决了:系统设计者不需要花大量精力在"让模型格式化输出"上,可以把全部注意力放在"让它做出更好的决策"上。前者是工程问题,有标准解法;后者是认知问题,没有银弹。
然后面对"好不好用"的真相
能输出JSON,不代表能输出好的决策。开发者用了一个很克制的说法——"不可靠推理"。具体表现为:给这个模型一个市场场景,问它该买什么、卖什么、出多少钱,它确实会给出一个答案,但这个答案的经济学含量,用"随机"来形容可能都有点高估。它分不清稀缺和充裕,算不

