2026年4月18日

为什么讲故事对 LLM 来说比写代码更难

AI 的真正前沿不是逻辑，而是与人类意图的对齐。当我们用故事而非代码来衡量时，才能看到智能的真正差距。

AI 的真正前沿不是逻辑。而是与人类意图的对齐。

我没想到会重要的视角

十五年前，我坐在一张桌子前，其他人都已经回家了。唯一的光来自屏幕，光标在空白文档上闪烁。我不是在调试函数。我是在与一个故事搏斗，寻找那一个能穿透噪音、落在某个永远不会知道我名字的陌生人内心深处的句子。

那是我从事传播学工作的日子。讲故事不只是一项技能。它是我呼吸的空气。在黑暗中雕琢叙事，为那些我从未接触过的品牌塑造语气，把别人模糊意图的迷雾翻译成能在另一个人胸膛中共鸣的东西。

现在？我是一名软件工程师。

不同的世界。不同的语言。至少我是这么想的。

最近，我一直在回归长篇写作。不是那些中午就蒸发掉的快文，而是 sustained 的工作。那种需要骨架的。节奏的。一条你能从头到尾跟随的线索。而这一次，我不是独自在做。我身边有一个 LLM。

就在那时我意识到这一点：一只脚在代码里，另一只脚在叙事中，我突然能看到这些模型在哪里 soaring，在哪里 fall short。

代码本该是难的

你以为编码会是让 AI 绊倒的东西。它毫不留情。一个放错的分号，一个记错的函数名，整个东西就崩塌了。精确就是一切。没有什么 vibe 能让你从语法错误中得救。

所以想象一下，当我看着一个 LLM 在几秒钟内生成一个干净的解决方案时我的惊讶——那本来会花费我数小时阅读文档和反复犹豫变量名。它会重构。它会搭建脚手架。它能看到我离问题太近时错过的模式。

有时输出比我自己写的还干净。

这就提出了真正的问题：如果编码是容易的部分，那什么是真正难的？

讲故事的挣扎

我没准备好答案会是讲故事。

LLM 可以比任何活着的人类更快地生成关于爱或失去的 polished 段落。它看起来是对的。它读起来像写作。

但真正的讲故事，那种让你久久难忘的，是别的东西。

在二十页中保持一个角色的灵魂。
构建一个不只是上升，而是呼吸的情感弧线。
落地一个主题而不猛敲它。
捕捉意图——在文字挡道之前你想说的那个东西。

输出是正确的。但它感觉不对。如果你在传播学领域待了多年，调校文案直到它落在某人的 gut 里，你会立即注意到那个 gap。它就像一个音准完美的音符，但没有振动。

为什么编码适合机器心智

编码是 LLM 工作方式的 dream scenario。清晰的结构。规则。语法。重复的模式。即时反馈。编译器对你大喊。测试失败。你马上知道。

可分解的问题。大系统分解成小函数。

无尽的例子。数百万个仓库。Stack Overflow 帖子。现实世界蓝图。

编码从外面看起来像高级智能。但从里面看，它是一个 legible、rule-bound 的世界。而 LLM 在 legible 的世界中 thrive。

为什么讲故事抵抗算法

讲故事活在规则之间的空间里。

没有单一的正确答案。反馈来得缓慢、主观，而且常常没有文字。连贯性不是局部的。它 stretched 在时间、记忆和感觉之间。

意义活在未说出的东西里，不只打出来的字里。

最重要的是，讲故事要求理解某人的意思，而不只是他们说了什么。

缺失的层：情感

还有一个我们谈得不够的维度。情感。

LLM 知道悲伤的语言。它们读过每一个关于胸口收紧、安静的房间、意味着比尖叫更多的沉默的描述。它们能以 unsettling 的准确性模拟情感语言。

但它们感受不到。而那个差异 matters。

当人类写作时，情感不只是页面上的内容。它是身体里的反馈。我们调整语气是因为我们内心的某部分反应了。我们感觉一个句子变平了。我们感知一个时刻需要空间，然后我们才能解释为什么。那个 felt experience 和下一次按键之间的循环对 LLM 来说不存在。

它通过模式而非生活来近似情感。

所以你得到的是技术上 flawless 但情感上 untethered 的散文。正确的。但不太对。

我自己工作流中的差距

当我用 LLM 编码时，循环是紧密且令人满意的：

Prompt → 输出 → 精炼 → 更好的输出。

当东西坏了，我看到它。当它修好了，我知道。

讲故事就像试图调一个你听不见的乐器。

我会从某个 vague 的东西开始——一种 mood、一个角色的模糊想法、未知的行动、一个我无法 quite 命名的转折点——然后让模型把它 carry forward。

回应来了。它是连贯的。它写得很好。它是……不是它。

而我不能总是告诉你为什么。我就是知道。

DeepSeek vs. ChatGPT 和 Claude

最近，我把几个模型都测试了一遍：DeepSeek、ChatGPT 和 Claude，横跨编码和讲故事任务。

编码？Comparable。它们都知道怎么用 JavaScript 给我写一个完美的 Chromie Squiggle。

但讲故事，尤其是在中文里——我的第一语言——事情变得奇怪了。

DeepSeek 总是更接近我的意思。它在我不需要 spell out 的情况下抓住了语气。它在更少的 friction 中跟随情感方向，我的意图和输出之间。

即使在英语中，也有一种 subtle 的优势。

这提出了一个我无法 shake 的问题：这是关于原始能力？还是关于模型如何思考？

语言塑造思维，而模型继承了那一点

语言学家长期以来争论，语言不只是描述现实。它塑造我们如何感知它。在大约 7000 种人类语言中，意义被不同地编码。每一种都让心智稍微倾斜向不同的方向。

例如，中文倾向于：

把 dense 的意义压缩进更少的词。
严重依赖上下文和共享理解。
强调整体、关系性思考而非孤立的类别。

如果一个模型在那个语言空间中被深度训练，它不只是学习词汇。它 internalizes 一种不同的意义结构本身。

所以当我发现自己在想：DeepSeek 就是 get 我。

也许我真正在说的是：

我对意义的内部 compass 更接近中文构建思维的方式。而 DeepSeek，通过设计或 consequence，在更接近同一个空间的地方运作。

关于 AGI 的思考

如果我们把 AGI 定义为在多个领域匹配或超越人类能力的系统，那么编码不是我们以为的 benchmark。

它是一个更窄的问题。一个可解的 puzzle。

真正的 frontier 在别处：

一个模型能理解我们的意思，而不只是我们说了什么吗？

讲故事 mercilessly 暴露了这个 gap。

它需要：

建模人类意图，而不只是人类语言。
在时间、记忆和情感之间保持连贯。
在没有清晰奖励信号的情况下导航模糊性。
情感上对齐，而不只是逻辑上对齐。

这些不是 edge cases。它们对像人一样思考意味着什么来说是 central 的。

讲故事是智能的原始接口。

它是我们如何把 lived experience 压缩成可分享的意义。它是我们如何与其他心智协调。它是我们如何 make sense of being alive。

如果一个系统能真正与我们共同创造故事——不只是生成文本，而是与意图和情感方向对齐——那么它正在一个值得不同名字的智能水平上运作。

视角的转变

我在软件工程领域。这个 realization 不舒服地坐在我胸口。

它表明，那些我们视为独特人类的技能——结构化问题解决和逻辑推理——比我们想相信的更容易自动化。

而那些我们视为 soft 或 secondary 的东西——叙事本能、情感品味、感觉某事落地了的能力——可能更接近让我们成为人类的核心。

多年来，我们通过 AI 写代码的能力来衡量其进步。

那有道理。它是可见的。可测试的。令人印象深刻的。

但它可能不是正确的 frontier。

因为更难的问题——那个仍然抵抗我们的——不是语法。不是逻辑。不是推理，至少不是我们定义的 narrow 意义上的。

是理解。

不是那种浅薄的、统计学的，模型预测下一个词的那种。

那种 deep、human 的。那种在别人还没完全说出来之前你就知道他们在试图说什么，然后你用正确的重量回应。正确的沉默。正确的识别。

现在，讲故事是那个 gap 发光最亮的地方。

而那才是真正的工作开始的地方。

#ai #communication #cognition #philosophy

原文发布于 Medium.