超越 Transformer:RockAI 通往 AGI 的另一条路

当全世界都在追求越来越大的云端模型时,一家上海创业公司押注于更小、更聪明的 AI——它能像人脑一样学习和记忆。

在一个痴迷于越来越大的云端模型的世界里,一家上海创业公司押注于更小、更聪明的 AI,它能像人脑一样学习和记忆

Image 2

在 2025 年上海世界人工智能大会(WAIC)熙熙攘攘的人群中,数千名参观者惊叹于最新的云端 AI 演示,而在一个大多数游客可能忽略的 modest 展位上,正发生着 something extraordinary。一只机器狗,完全离线、与互联网断开连接,正在实时向一位中年参观者学习新技巧。

这位男士教了它一个简单的序列:转个圈,然后坐起来,做出经典的「小狗作揖」姿势。两分钟内,机器狗就完美复现了整个动作——没有任何预编程指令、遥控或互联网连接。 nearby,机械手正以惊人的技巧玩电子游戏,在类似俄罗斯方块的拼图和挖矿游戏中展现出战略 precision,全部由本地 AI 模型驱动。

展位代表告诉参观者,这代表着「设备原生智能:能够离线运行、多模态处理、并在使用中学习。」

这不仅仅是又一个科技 demo。它是对人工智能根本不同愿景的一瞥——一个挑战我们对 AI 开发、部署以及通往通用人工智能(AGI)路径的 fundamental 假设的愿景。

断连世界中的连接智能

尽管多年来关于 AI 驱动设备的承诺不绝于耳,我们却生活在一个技术悖论中。公司们热情推销「AI 手机」「AI 眼镜」「AI 玩具」,但几乎所有有意义的 AI 交互仍然需要稳定的互联网连接。最复杂的 AI 体验依然 tethered 在云端,网络故障时让用户沮丧,网络畅通时让用户担忧隐私。

「人人都在谈论离线智能和设备端 AI,」RockAI 的联合创始人邹佳思在近期接受极客公园采访时解释道,「但理想与现实之间横亘着两座几乎不可逾越的大山:算力和能耗。」

这种 disconnect 不仅仅是工程挑战——它代表了当前 AI 架构与边缘设备物理现实之间的 fundamental mismatch。数据中心享受 virtually 无限的计算资源,而移动设备面临严酷的约束:有限的处理能力、 restrictive 的能源预算,以及热量散发的无情物理定律。

数据是 sobering 的:大多数智能手机在本地运行大模型仅几分钟后就开始过热。AI 眼镜和玩具依赖为基本连接设计的芯片,而非复杂推理。即使是高端设备也在与 Transformer 模型的计算需求 struggle,让绝大多数现有硬件无法 meaningful 地参与 AI 革命。

Transformer 陷阱

要理解 RockAI 的激进方法,我们首先必须审视为什么 Transformer 架构——尽管在云端环境中取得了 spectacular 的成功——却为边缘部署创造了 fundamental 问题。

Transformer 的革命性创新是注意力机制,它允许模型同时考虑输入所有部分之间的关系。想象一个传统的 AI 模型像工厂工人按顺序处理信息,对之前的步骤只有有限记忆。Transformer 则像一位 master conductor,能同时看到整个管弦乐队,实时理解每个乐手如何与其他乐手关联。

这种「全局握手」方式——每个 token 必须与每个其他 token 交互——创造了非凡的理解能力。但它也创造了随输入长度 quadratically 增长的指数级计算负担。每增加一个词不只是增加处理负载;它是 dramatically 成倍增加。

「Transformer 模型 fundamentally 是为拥有无限计算资源的云端环境设计的,」RockAI CTO 杨华在接受量子位采访时解释道,「当你试图把这种架构强塞进边缘设备时,就像让一辆 F1 赛车去走盘山公路——基本的设计假设完全崩塌了。」

移动处理器更像高效的 assembly line,擅长顺序高速处理。当你要求它们执行 Transformer 要求的并行、关系密集型计算时,它们很快就被压垮了。结果就是今天我们看到的情况:AI 设备过热、rapidly 耗尽电池,或者根本跑不了 sophisticated 模型。

另一条路

正如 RockAI CEO 刘凡平在 WAIC 2025 期间公开表示的:「当前 AI 发展需要克服两座大山:一个是反向传播,另一个是 Transformer。」

RockAI 没有试图优化 Transformer 以适应边缘部署——这是 virtually 每家公司采取的方法——而是在 2022 年初,甚至在 ChatGPT 点燃当前 AI 革命之前就做出了更激进的选择:他们要重建引擎。

「我们不是试图改装一辆 F1 赛车去跑山路,」邹在极客公园采访中解释道,「我们正在设计一辆全新的越野车,能 natural 地穿越那些山脉。」

Yan 架构完全抛弃了注意力机制,代之以 RockAI 所称的「特征抑制-激活」系统结合 compartmentalized 激活。不同于要求所有参数对每个查询都激活,Yan 模型只激活与每个任务相关的特定神经「区域」——很像人脑在处理简单请求时并不会 fully illuminate。

这种 bio-inspired 方法带来了 dramatic 的效率提升:相比同等 Transformer 模型,训练速度提升 7 倍,推理吞吐提升 5 倍,内存容量提升 3 倍,功耗显著降低。但真正的突破不只是效率——它是一种当前 AI 系统完全缺乏的全新能力。

在边缘设备上记忆和学习

也许 Yan 2.0 最革命性的功能听起来 mundane,却代表了 fundamental 的范式转变:边缘设备上的真正记忆和自主学习。

当前的 AI 模型,即使部署在本地,本质上也是只读系统。一旦训练完成并部署,它们就无法修改核心神经网络来学习新信息。任何「个性化」都通过外部 prompt、上下文窗口或检索系统实现——模型本身保持 static,就像一本只能读不能更新的图书馆藏书。

Yan 2.0 通过 RockAI 所称的「训练-推理同步」改变了这一点——在被积极使用的同时学习和更新的能力。不同于 Transformer 需要 massive GPU 集群才能进行任何学习更新,Yan 的 compartmentalized 架构通过低功耗反向传播实现 localized 学习。

技术实现涉及两个关键阶段:

记忆更新阶段:模型确定哪些旧知识可以被遗忘,然后从当前任务中提取有价值的信息并直接写入记忆模块。这个过程不依赖外部缓存或数据库,而是使用 specialized 神经网络来模拟记忆行为,实现动态擦除和增量写入。

记忆检索阶段:Yan 2.0 实现了记忆稀疏机制,从多个记忆槽中选择 top-K 激活的记忆,与长期共享记忆融合以生成新输出。这让模型不仅能记住,还能「用记忆进行推理」。

「模型可以一边使用(推理)一边学习(训练),」邹在极客公园采访中描述道,「直接把新学到的偏好写入模型自身的神经网络。」

这在边缘 AI 中创造了前所未有的东西:随用户一起成长和进化的模型,无需连接互联网就能越来越个性化。那只学习新技巧的机器狗不是在遵循预编程的 routine——它是在基于人类示范 genuinely 更新自己的神经通路。

压缩 vs. 成长

RockAI 的愿景以 fundamental 方式挑战了当前的 AI 开发范式。大多数大语言模型遵循该公司所称的「压缩智能」——像巨大的海绵,在训练期间吸收 vast amounts 的互联网数据,然后作为压缩知识的 static 仓库提供服务。

这种方法应用于资源受限的边缘设备时面临明显的局限。文本比图像或视频压缩得更好,这解释了为什么大多数小参数 Transformer 模型在多模态任务上 struggle。注意力机制的计算开销使得用数十亿而非数千亿参数实现 sophisticated 多模态理解几乎不可能。

但 RockAI 主张的是完全不同的 scaling law:「压缩智能 + 自主学习」。不是建造更大的海绵,而是创造能成长的小大脑。

「真正的智能不应该只是压缩,」RockAI CEO 刘凡平在 WAIC 2025 上争辩道,「它应该是成长和学习。人类大脑不会预装所有知识——它们通过与环境的互动来发展。」

通过 compartmentalized 激活,Yan 模型理论上可以扩展到数千亿参数,同时通过对任何给定任务只激活相关 3% 来保持低功耗。这种架构方法暗示了一种不同的 scaling law:不是预训练越来越大的模型,而是部署通过真实世界互动成长的小模型。

更重要的是,这种方法实现了当前架构 impossible 的东西:小规模下的真正多模态理解。Yan 2.0 Preview 仅有 30 亿参数,却能同时处理文本、图像和音频,在树莓派上以每秒 5 个 token 的速度运行——这对任何同等规模的 Transformer 模型来说都是 impossible 的 feat。

计算鸿沟

当我们审视边缘部署的物理现实时,当前方法的局限变得清晰。RockAI 与硬件制造商打交道的经验揭示了理论讨论经常忽略的残酷现实。

「我们有个客户想在智能手机上部署 AI 能力,」邹在极客公园采访中回忆道,「但其他每家 AI 公司都要求最新的旗舰高通芯片,配 16GB 或更多内存。现实是,大多数智能设备无法支持如此高端的硬件。」

这就造成了 RockAI 所称的「计算鸿沟」——无论你的 AI 技术多先进,如果它只能在最贵的设备上工作,它就没有实现真正人工智能所需的 democratization。

功耗挑战同样严峻。智能手机制造商 consistently 报告,尝试部署大模型会导致严重过热——这是 Transformer 架构的 universal 问题。几家主要移动制造商已向 RockAI 私下分享了这一痛点,表达对他们 AI 手机野心被 fundamental 能源约束 blocked 的沮丧。

人脑类比在这里很有启发性。人脑有约 800-900 亿神经元,相当于一个 800-900 亿参数的模型。如果大脑同时激活所有神经元,将需要 3000-4000 瓦功率。相反,它通过选择性激活相关神经区域,消耗不到 30 瓦。

「这正是我们的 compartmentalized 激活所实现的,」杨华在量子位采访中解释道,「不是点亮整个模型,我们只激活每个任务所需的特定区域,实现类似大脑的效率。」

离线智能的隐藏需求

当科技世界痴迷于基于云的 AI 能力时,RockAI 发现了一件令人惊讶的事:对真正离线智能的 significant 市场需求已经存在,尤其是在全球市场,三个因素创造了 compelling 的商业驱动。

隐私刚需:在欧洲和北美,数据隐私不仅仅是用户偏好——它往往是嵌入 GDPR 等法规的法律要求。对于玩具、教育设备或个人电子产品的制造商来说,把用户数据留在本地不是可选项。RockAI 目前正在与一家大型玩具 IP 公司谈判,其主要要求就是任何用户隐私数据绝不能到达云端。

网络不可靠:在主要城市中心之外,可靠的高速互联网仍然 inconsistent。对于全球销售的制造商来说,依赖云连接严重限制了市场 reach。RockAI 的客户经常服务于非洲荒野地区、东南亚岛屿和其他网络可用性无法保证的区域。

经济效率:在大规模情况下,本地处理往往被证明比每次查询的云 API 成本更经济。对于每天可能产生数千次 AI 请求的设备来说,算术变得 compelling——硬件成本一次性支付,而云成本无限累积。

RockAI 的当前客户群反映了这些现实。他们已 secured AI PC 和平板电脑的生产订单,将于 2025 年下半年出货到海外市场,使制造商能够通过 OTA 更新为现有硬件 retrofit AI 能力。机器人公司需要没有网络延迟的实时响应。无人机制造商在连接 impossible 的环境中需要可靠的 AI。

游戏作为智能测试

WAIC 2025 的游戏演示不仅仅是 spectacle——它们代表了 sophisticated 的认知基准。游戏需要快速决策、战略规划、视觉处理和实时适应变化条件的能力。成功展示这些能力完全在本地硬件上运行,证明了 Yan 的架构能够处理 AGI 应用最终需要的复杂实时推理。

玩俄罗斯方块式游戏和挖矿模拟的机械手必须同时:

  • 处理视觉输入以理解游戏状态
  • 提前几步规划最优动作
  • 执行精确的电机控制
  • 基于变化的游戏条件调整策略
  • 从失败尝试中学习以改进表现

所有这一切仅由 30 亿参数在 modest 硬件上本地运行——如果使用传统 Transformer 架构,这将需要 orders of magnitude 更多的计算资源。

会学习的机器狗代表了 even more significant 的里程碑。基于人类示范实时获取运动技能需要:

  • 多模态感官处理(视觉、本体感觉)
  • 运动模式识别和编码
  • 运动规划和执行
  • 神经通路更新以保留记忆
  • 带适当时序的行为复现

整个 pipeline 完全离线运行。新知识直接编码进模型的神经权重,而非存储在外部数据库中。这代表了一种 fundamentally 不同的人工智能方法。

超越 Transformer

RockAI 的方法抵达了 AI 发展的 pivotal 时刻。行业开始质疑 Transformer scaling 是否代表唯一的前进路径,连 Google——Transformer 的诞生地——最近也引入了替代架构如 Mixture-of-Recursions(MoR),将内存需求减半同时推理速度翻倍。

怀疑甚至延伸到现代 AI 的架构师们。Yann LeCun,Meta 首席 AI 科学家兼图灵奖共同得主,对当前局限发表了 blunt 的言论,认为自回归 LLM 是「指数发散的扩散过程」,顺序 token 生成长序列中会产生级联错误。

「行业在集体询问 Transformer 架构是否已到达 bifurcation 点,」杨华在量子位采访中观察道,「各种混合架构的出现反映了行业潜意识的回应:当前方法已经不够用了。」

这种转变反映了 AI 发展中更深的 tension。虽然 Transformer 在云端基准测试上继续推进,但其 fundamental 设计假设使它们 poorly suited 于代表 AI 最终部署目标的边缘计算场景。每部智能手机、智能汽车、机器人系统和物联网设备都是一个潜在的 AI 端点,而当前架构无法有效服务。

RockAI 将自己定位为不是 Transformer 技术的对手,而是针对不同场景优化的互补方法的 pioneer。「Transformer 在拥有无限资源的云端环境中 excels,」刘凡平在 WAIC 2025 期间的一份声明中解释道,「但 AI 最终必须无处不在,而这需要 fundamentally 不同的架构方法。」

愿景:集体智能与分布式 AGI

除了 immediate 商业应用,RockAI 怀有更 ambitious 的愿景:将集体智能作为通往 AGI 的路径。不是追求越来越大的集中式模型,他们设想的是专门化边缘设备网络,一起学习、协作和进化。

「人类社会展示了集体智能的力量,」刘凡平在他的 WAIC 2025 演讲中解释道,「个体发展 specialized expertise,而协作放大能力。我们相信智能设备应该遵循同样的模式。」

这一愿景想象 AI 模型通过神经通路迁移或任务能力同步来分享所学能力,创造有组织的、专门化的、反馈驱动的模型社区。未来可能不是单一的超级智能系统,而是无数设备「大脑」相互连接、共同进化。

这种分布式智能相比集中式方法有多个优势:

  • 韧性:没有单点故障
  • 隐私:敏感数据永远不会离开本地设备
  • 专门化:不同模型针对特定任务优化
  • 可扩展性:通过网络效应增长能力
  • 可及性:无论有无连接都能使用 AI

挑战与逆向押注

RockAI 面临 formidable 的挑战。科技巨头拥有 vast 资源,可能通过硬件加速或新型芯片设计来解决 Transformer 优化问题。摩尔定律继续推进,可能使移动处理器在几年内就能高效运行更大的模型。

然而,RockAI 的领导层相信他们的架构优势将持续并随着硬件改进而放大。更强大的芯片将支持更大的 Yan 模型和更 sophisticated 的能力,而能源效率和自主学习功能将无论计算能力如何改进都保持优势。

「我们不只是建造一个更好的边缘 AI 解决方案,」杨华在量子位采访中澄清道,「我们正在开发 AI 最终如何 integrate 进人类生活每个方面的基础架构。」

公司的「逆向押注」反映了对 AI 未来的更深信念。虽然大多数人通过 scaling 现有方法来追求 AGI,RockAI 证明架构多样性仍然不仅 viable,而且 essential。他们的商业成功表明,广泛的 AI 普及可能需要多条路径,每条针对不同场景和约束优化。

少有人走的路

构建非 Transformer 架构需要的不只是技术创新——它要求重建整个 AI 生态系统。当前工具、库、训练框架和硬件优化都假设 Transformer 架构。RockAI 必须本质上从 foundations 向上重建软件栈。

「这条路艰难且孤独,」邹佳思在他坦诚的极客公园采访中承认道,「你在对抗整个行业的技术惯性,重建工具链、社区,并克服与新架构相关的认知成本。」

公司的坚持反映了他们所称的「 obsession 基因」——一种模型必须运行在边缘设备上才能实现 AI 真正潜力的坚定信念。这种信念支撑他们度过了两年安静的开发期,而行业正在庆祝基于云的突破。

「我们的护城河不是任何特定的技术功能,」刘凡平在极客公园采访中反思道,「因为聪明的人和团队 abundant。我们的护城河是在未知领域 navigating 所积累的 knowledge,以及我们从第一天起就为边缘智能优化的 distinctive 创新基因。」

一种不同的智能

随着 AI 发展以 breakneck pace 加速,RockAI 的方法提供了越来越 rare 的东西:对智能意味着什么以及它应该如何发展的 fundamentally 不同的视角。不是通过 massive 参数量追求人类水平性能,他们正在探索 AI 系统如何更像生物智能那样成长和适应——通过体验、记忆和 gradual 发展。

其影响超越了技术规格。如果 AI 系统能通过互动真正学习和记忆,而不是需要定期在 massive 数据集上重新训练,整个 AI 开发的经济模型就会转变。不是需要巨大计算资源的集中式训练,智能可以 gradual、local、personal 地发展。

这一愿景与对 AI 集中化、能源消耗和隐私的 growing concerns 产生共鸣。虽然基于云的模型展示了 impressive 的能力,它们也把权力集中在少数拥有足够资源来训练和运营它们的组织手中。本地学习和成长的边缘智能提供了一种更 democratized 的替代方案。

长远视角

超越 immediate 的技术成就,RockAI 的工作为 AI 发展代表了某种有价值的东西:证明替代方法仍然 viable,并且对特定应用可能 superior。

在一个发展如此迅速的领域,保持架构多样性不只是学术上 interesting——它在战略上是 essential。当前方法看来 intractable 的挑战,可能对完全不同的架构和范式 yield。

「如果我们超越本周的新模型发布和基准排名,」杨华在量子位采访中反思道,「以十年甚至三十年的视角来看今天的发展,也许真正照亮这场 AI 竞争深夜的,不是此刻燃烧的最亮火焰,而是后来被认为点燃了一切的那个 spark。」

原文发布于 Medium.