保存时间:2026/4/8 08:31:13
这个时间、这个兵力、这个建筑 → 人类通常会这么走
它根本不了解这个游戏的规则,或者不了解这个游戏的原理,它也能这么训练出来。
中科院这个星际世界模型,本质就是一个看过5万盘录像的时序预测神经网络。它不学规则、不推逻辑、不做决策,只靠统计拟合人类的套路,来“猜下一步”。很强、很实用,但离真正的智能还很远。
只有当所有可能性被穷尽、行为高度固定、大家都按同一套模板走时,这种统计式世界模型的预测才是准的。
模型用职业选手数据训练,去预测一个慢一倍、乱造、乱出兵的菜鸟,预测直接失效,完全不准。
职业战术对菜鸟,真的100%碾压吗?会不会因为完全不对位,反而出现奇怪的翻车?
为什么我说意义不大?因为它只是在高度收敛的数据里做模式匹配,不是理解世界、理解规则、理解因果。
现在大模型光看文字说明,就能理解英雄无敌 3 的魔法、技巧、逻辑。这已经超过模式识别,是学到人类的逻辑和因果。
围棋、象棋、星际、英雄无敌,本质都是把优势变成一个分数。AlphaGo 就是把模糊局势,变成一个可计算的评估。
我们不一定要训练一个复杂的打分网络。可以直接用 prompt 问大模型:
- 我要达到什么目标?
- 对方走了这一步,我走哪几步能达成目的?这是目标导向的智能,不是暴力搜索。
目前大模型,真的可以通过学习,掌握战略游戏里的战术、战略目的、因果关系。我走什么步骤 → 有什么效果;我要什么效果 → 该走什么步骤。
那个模型只会看录像猜下一步,既不懂规则,也不懂目标,更不懂因果,只是个高级时序预测机。