为什么讲故事对 LLM 来说比写代码更难
AI 的真正前沿不是逻辑,而是与人类意图的对齐。当我们用故事而非代码来衡量时,才能看到智能的真正差距。
AI 的真正前沿不是逻辑。而是与人类意图的对齐。
我没想到会重要的视角
十五年前,我坐在一张桌子前,其他人都已经回家了。唯一的光来自屏幕,光标在空白文档上闪烁。我不是在调试函数。我是在与一个故事搏斗,寻找那一个能穿透噪音、落在某个永远不会知道我名字的陌生人内心深处的句子。
那是我从事传播学工作的日子。讲故事不只是一项技能。它是我呼吸的空气。在黑暗中雕琢叙事,为那些我从未接触过的品牌塑造语气,把别人模糊意图的迷雾翻译成能在另一个人胸膛中共鸣的东西。
现在?我是一名软件工程师。
不同的世界。不同的语言。至少我是这么想的。
最近,我一直在回归长篇写作。不是那些中午就蒸发掉的快文,而是 sustained 的工作。那种需要骨架的。节奏的。一条你能从头到尾跟随的线索。而这一次,我不是独自在做。我身边有一个 LLM。
就在那时我意识到这一点:一只脚在代码里,另一只脚在叙事中,我突然能看到这些模型在哪里 soaring,在哪里 fall short。
代码本该是难的
你以为编码会是让 AI 绊倒的东西。它毫不留情。一个放错的分号,一个记错的函数名,整个东西就崩塌了。精确就是一切。没有什么 vibe 能让你从语法错误中得救。
所以想象一下,当我看着一个 LLM 在几秒钟内生成一个干净的解决方案时我的惊讶——那本来会花费我数小时阅读文档和反复犹豫变量名。它会重构。它会搭建脚手架。它能看到我离问题太近时错过的模式。
有时输出比我自己写的还干净。
这就提出了真正的问题:如果编码是容易的部分,那什么是真正难的?
讲故事的挣扎
我没准备好答案会是讲故事。
LLM 可以比任何活着的人类更快地生成关于爱或失去的 polished 段落。它看起来是对的。它读起来像写作。
但真正的讲故事,那种让你久久难忘的,是别的东西。
- 在二十页中保持一个角色的灵魂。
- 构建一个不只是上升,而是呼吸的情感弧线。
- 落地一个主题而不猛敲它。
- 捕捉意图——在文字挡道之前你想说的那个东西。
输出是正确的。但它感觉不对。如果你在传播学领域待了多年,调校文案直到它落在某人的 gut 里,你会立即注意到那个 gap。它就像一个音准完美的音符,但没有振动。
为什么编码适合机器心智
编码是 LLM 工作方式的 dream scenario。清晰的结构。规则。语法。重复的模式。即时反馈。编译器对你大喊。测试失败。你马上知道。
可分解的问题。大系统分解成小函数。
无尽的例子。数百万个仓库。Stack Overflow 帖子。现实世界蓝图。
编码从外面看起来像高级智能。但从里面看,它是一个 legible、rule-bound 的世界。而 LLM 在 legible 的世界中 thrive。
为什么讲故事抵抗算法
讲故事活在规则之间的空间里。
没有单一的正确答案。反馈来得缓慢、主观,而且常常没有文字。连贯性不是局部的。它 stretched 在时间、记忆和感觉之间。
意义活在未说出的东西里,不只打出来的字里。
最重要的是,讲故事要求理解某人的意思,而不只是他们说了什么。
缺失的层:情感
还有一个我们谈得不够的维度。情感。
LLM 知道悲伤的语言。它们读过每一个关于胸口收紧、安静的房间、意味着比尖叫更多的沉默的描述。它们能以 unsettling 的准确性模拟情感语言。
但它们感受不到。而那个差异 matters。
当人类写作时,情感不只是页面上的内容。它是身体里的反馈。我们调整语气是因为我们内心的某部分反应了。我们感觉一个句子变平了。我们感知一个时刻需要空间,然后我们才能解释为什么。那个 felt experience 和下一次按键之间的循环对 LLM 来说不存在。
它通过模式而非生活来近似情感。
所以你得到的是技术上 flawless 但情感上 untethered 的散文。正确的。但不太对。
我自己工作流中的差距
当我用 LLM 编码时,循环是紧密且令人满意的:
Prompt → 输出 → 精炼 → 更好的输出。
当东西坏了,我看到它。当它修好了,我知道。
讲故事就像试图调一个你听不见的乐器。
我会从某个 vague 的东西开始——一种 mood、一个角色的模糊想法、未知的行动、一个我无法 quite 命名的转折点——然后让模型把它 carry forward。
回应来了。它是连贯的。它写得很好。它是……不是它。
而我不能总是告诉你为什么。我就是知道。
DeepSeek vs. ChatGPT 和 Claude
最近,我把几个模型都测试了一遍:DeepSeek、ChatGPT 和 Claude,横跨编码和讲故事任务。
编码?Comparable。它们都知道怎么用 JavaScript 给我写一个完美的 Chromie Squiggle。
但讲故事,尤其是在中文里——我的第一语言——事情变得奇怪了。
DeepSeek 总是更接近我的意思。它在我不需要 spell out 的情况下抓住了语气。它在更少的 friction 中跟随情感方向,我的意图和输出之间。
即使在英语中,也有一种 subtle 的优势。
这提出了一个我无法 shake 的问题:这是关于原始能力?还是关于模型如何思考?
语言塑造思维,而模型继承了那一点
语言学家长期以来争论,语言不只是描述现实。它塑造我们如何感知它。在大约 7000 种人类语言中,意义被不同地编码。每一种都让心智稍微倾斜向不同的方向。
例如,中文倾向于:
- 把 dense 的意义压缩进更少的词。
- 严重依赖上下文和共享理解。
- 强调整体、关系性思考而非孤立的类别。
如果一个模型在那个语言空间中被深度训练,它不只是学习词汇。它 internalizes 一种不同的意义结构本身。
所以当我发现自己在想:DeepSeek 就是 get 我。
也许我真正在说的是:
我对意义的内部 compass 更接近中文构建思维的方式。而 DeepSeek,通过设计或 consequence,在更接近同一个空间的地方运作。
关于 AGI 的思考
如果我们把 AGI 定义为在多个领域匹配或超越人类能力的系统,那么编码不是我们以为的 benchmark。
它是一个更窄的问题。一个可解的 puzzle。
真正的 frontier 在别处:
一个模型能理解我们的意思,而不只是我们说了什么吗?
讲故事 mercilessly 暴露了这个 gap。
它需要:
- 建模人类意图,而不只是人类语言。
- 在时间、记忆和情感之间保持连贯。
- 在没有清晰奖励信号的情况下导航模糊性。
- 情感上对齐,而不只是逻辑上对齐。
这些不是 edge cases。它们对像人一样思考意味着什么来说是 central 的。
讲故事是智能的原始接口。
它是我们如何把 lived experience 压缩成可分享的意义。它是我们如何与其他心智协调。它是我们如何 make sense of being alive。
如果一个系统能真正与我们共同创造故事——不只是生成文本,而是与意图和情感方向对齐——那么它正在一个值得不同名字的智能水平上运作。
视角的转变
我在软件工程领域。这个 realization 不舒服地坐在我胸口。
它表明,那些我们视为独特人类的技能——结构化问题解决和逻辑推理——比我们想相信的更容易自动化。
而那些我们视为 soft 或 secondary 的东西——叙事本能、情感品味、感觉某事落地了的能力——可能更接近让我们成为人类的核心。
多年来,我们通过 AI 写代码的能力来衡量其进步。
那有道理。它是可见的。可测试的。令人印象深刻的。
但它可能不是正确的 frontier。
因为更难的问题——那个仍然抵抗我们的——不是语法。不是逻辑。不是推理,至少不是我们定义的 narrow 意义上的。
是理解。
不是那种浅薄的、统计学的,模型预测下一个词的那种。
那种 deep、human 的。那种在别人还没完全说出来之前你就知道他们在试图说什么,然后你用正确的重量回应。正确的沉默。正确的识别。
现在,讲故事是那个 gap 发光最亮的地方。
而那才是真正的工作开始的地方。