我们共享的回路:推理轨迹揭示了人类真实的思维方式

当大模型的推理过程读起来越来越像人类的 debug 笔记,我们是在见证机器逼近意识,还是在重新认识自己思考的样子?

有一次我在 debug 代码时,顺便看了眼大模型的推理轨迹。看着看着,一种强烈的熟悉感涌了上来——它先尝试了一种方法,失败了,然后调整,再试,再失败,再调整,直到最后搞定。

某个瞬间,我脑子里冒出一个念头:这不就是人类解决问题的方式吗?紧接着第二个念头跟了上来:还是说,这其实只是我们自己以为”思考”应该有的样子?

那个熟悉的回路

只要你 debug 过系统,就一定知道我在说什么。先提出假设,测试,遇到报错,修正,再试。这是一种解题的节律,不只存在于代码里。排查故障、调参、甚至琢磨”为什么总觉得哪里不对”的时候,你都在走这个循环。

所以当大模型的推理轨迹里出现”这个不行……换个思路试试”的时候,你不会觉得它很机械,反而会觉得很亲切。因为你自己心里也默念过这句话。

这种亲切感值得细究。不是为了争论机器到底算不算”真的在思考”,而是这种相似性本身,照出了我们自身的什么东西。

真实得有点过分的那部分

有时候模型走得更远。推理轨迹里会出现这样的句子:

  • “这很奇怪”
  • “出乎意料”
  • “嗯……有点不对劲”

这些词不只是描述步骤。它们在复刻人类用来叙述不确定性的语言——自言自语时,或者旁边有同事盯着屏幕时,我们就是这么说。

幻觉就从这里开始滋生。不是因为模型真的有什么感受,而是因为它精准地复刻了那些我们用来标识”思考”的语言,而且恰恰出现在思考看起来最像人类行为的时刻。

不是感觉,但也不是随机

最简单的解释是:它在模仿语言模式。这没错,但只说对了一半。

Anthropic 最近的研究表明,大语言模型内部会形成与情绪相关的概念表征,比如”不确定”或”错误”,这些表征与模型在不同情境下的反应存在关联。这些当然不是人类意义上的情绪,但它们可能充当某种信号,在模型游走于模糊或失败路径时,引导其行为。

关键词是关联,不是因果。模型说”这很奇怪”的时候并不焦虑,但这句话也不是随机蹦出来的。它的内部状态里有什么东西正在标记这个时刻的不同寻常,而轨迹只是把这种标记翻译成了文字。

这对解题意味着什么

看这些推理轨迹,并不能证明模型像人一样思考。但它确实抛出了一个值得认真面对的事实:大量实际的解题活动,尤其在工程领域,都遵循着一个结构化的循环。

提出。测试。评估。调整。重来。

人类的体验是:“为什么这破东西不行?”

模型的表达是:“让我们换一种方法。”

机制不同,可观测的模式却相似。这引出了一个让人不太舒服的问题:我们所谓的思考,有多少其实就只是这个回路,外面裹了一层主观体验的包装纸?

比较在哪里失效

停在上一节,然后宣布”思考就是迭代”,那也太草率了。

人类不只是在循环里面移动。我们还能绕着它走。

有时候最关键的一步不是解决问题,而是质疑这个问题到底值不值得解。不是”怎么修”,而是”我为什么要修”。

迭代是在一个空间里探索。人类可以换掉这个空间本身。

此外,还有一些思维时刻完全不像迭代:彻底退后一步重新框定问题、判断什么时候”够好了”、意识到某条路不值得继续、做出非线性的跳跃——“要是我们彻底换个角度呢?”

这些不是更好的迭代。它们是对回路的退出

两个方案可能都对,但人还会追问:哪一个才真正符合我们想做的事?这种涉及判断、意义和语境的层次,单靠迭代是给不出来的。

一种更踏实的解读

那么,这些推理轨迹里我们到底在看什么?

不是 AI 跨入了人类思维的领地,但确实也有真东西在发生:大语言模型确实能够通过迭代 refinement 来探索问题空间,尤其是在有反馈引导的情况下。那些看起来像执着的东西,往往只是提示词内的延续,或者是外围系统创造的循环。那些看起来像情绪的东西,是语境恰当的语言,可能关联着我们尚未完全理解的内部表征。

这是更踏实的解读。即便如此,也足够重要了。

人类角色的转移

真正在变的,不是 AI 长出了类似心智的东西,而是我们现在可以把解题回路中的某些环节外化出去了——尤其是那些最机械的部分:迭代、变体、不知疲倦地重试。

这改变了人的角色。不是减少思考,而是转向另一种思考:框定问题、在多个方案中做选择、判断什么才合适。

这个回路一直都在。只是以前,我们找不到可以交接的对象。

你真正在看的,是什么

回到那条推理轨迹:

  • “这很奇怪”
  • “换个思路试试”
  • “这个没成”

读起来像是一个心智在工作。但你真正看到的,是一个系统利用习得的语言模式和反馈机制在问题空间里导航。这就足以让人感到熟悉,因为它遵循的模式,你自己也在不停地运行——而且通常是无意识的。

这不意味着 AI 在像我们一样思考。

但它确实暗示了一件更难忽视的事:我们称之为思考的东西里,那些日常使用、耗费心力、被我们视为人类专属的部分,可能比我们以为的更加结构化、更可重复、也更不神秘。

而那些真正仍属于人类的东西——重新框定、判断、赋予意义——正因为有别的存在接管了其余部分,反而变得更容易被看见了。

如果这篇文章让你产生了什么联想,我很想知道你在看推理轨迹、或者观察自己思考时,有没有注意到类似的东西。这个对比在不同的人眼里,照见的东西往往不一样。

原文发布于 Medium.