2025年5月21日

初识 Gemini Diffusion：谷歌在 AI 写作上的大胆新尝试

谷歌在 I/O 2025 发布的实验性研究模型 Gemini Diffusion，可能彻底改写 AI 文本生成的规则。本文带你了解扩散模型如何工作，以及它为何值得期待。

Image generated by Google Gemini 2.5 Flash

5 月 20 日的 Google I/O 2025 上，谷歌发布了一项相当引人注目的新成果——Gemini Diffusion。这是一个实验性的研究模型，有可能会彻底颠覆 AI 生成文本的方式[1][2]。今天咱们就来聊聊，这项技术到底有什么不同，以及它对未来我们与 AI 交互可能意味着什么。

什么是扩散模型？

如果你一直在关注 AI 生图领域的动态，可能早就接触过扩散模型了，只是没意识到而已[3]。这类模型的工作方式与传统的文本生成器完全不同，过程听起来就很有意思：

从噪声开始：扩散模型并不是逐字逐句地“搭建”文本，而是先从随机噪声出发，再一步步把它打磨成有意义的内容。
迭代 refine：你可以把它想象成一位雕塑家，从一块大理石中慢慢凿出隐藏的形状。经过多轮打磨，模型不断剔除噪声，直到连贯的内容浮现出来。
并行生成：传统模型是一个词（或者说一个 token）接一个词地生成，而扩散模型可以同时产出整段内容——想象一下，一段话的多个部分同时落笔，是不是很神奇？

Google 的 Imagen 和 Veo 模型之所以能生成那些惊艳的图像和视频，靠的就是这套方法[4]。而现在，谷歌把它带到了文本领域。

如果你用过 ChatGPT、Claude，或者之前的 Gemini 模型，那你已经体验过 AI 传统的文本生成方式了。这些模型叫做自回归大语言模型（autoregressive LLMs），它们逐字生成内容，每个新词都依赖于前面所有的词。就像从左到右写句子，永远没法往前看。

这种方式效果不错，但在速度和偶尔的质量上都有明显的短板[5]。如果你曾觉得 AI 写到一半好像忘了自己前面在说什么，有一部分原因就是这种逐字生成的机制。

Gemini Diffusion 走了一条完全不同的路。据 Google DeepMind 介绍，它“通过逐步精炼噪声来学习生成输出”。也就是说，它能在生成过程中“自动纠错”，从而有望产出更连贯、更一致的文本[5]。

目前，Gemini Diffusion 仍是一个实验性的研究模型，还不是成品。谷歌正在把它开放给“受信任的测试者”，收集反馈、打磨技术，然后再考虑更广泛地开放[5]。你可以把它看作是对 AI 文本生成未来的一种预演。

谷歌总结了这款新模型的几个核心优势，听起来相当有吸引力：

闪电般的速度：这可能是最让人眼前一亮的地方。Gemini Diffusion 的生成速度达到了惊人的每秒 1479 个 token，额外开销仅 0.84 秒[5]。作为对比，谷歌此前以快著称的 Gemini 2.0 Flash 大约是每秒 250 个 token——也就是说，Diffusion 差不多是它的 6 倍快[5]。
更连贯的回复：因为它能同时生成整段文本，而不是一个词一个词地蹦，模型理论上能输出更连贯、更一致的回答[5]。如果你遇到过 AI 回复写到一半突然“跑偏”的情况，扩散模型或许能解决这个问题。
自我纠错：迭代的精炼过程让模型在生成时就能发现并修正错误[5]。就像内置了一位编辑，在你看到内容之前就已经审阅并优化了一遍。
高效能：早期基准测试显示，Gemini Diffusion 的性能可以媲美规模更大的模型，同时速度却快得多[5]。这意味着，未来我们可能不需要庞大的算力，也能获得强大的 AI 能力。

从谷歌公布的基准数据来看，Gemini Diffusion 在以下几个方向特别值得期待：

编程辅助：在 HumanEval（89.6%）和 MBPP（76.0%）等代码基准测试中，它的表现相当亮眼。这种能力可能会改变开发者使用 AI 编程助手的方式。想象一下，一个编程助手不仅能给你建议，还能同时快速编辑和优化整段函数。
数学与科学解题：模型在复杂数学推理任务上也展现了潜力，AIME 2025 得分 23.3%，GPQA Diamond 得分 40.4%。这对学生、科研人员以及专业人士来说，意味着能更高效地攻克难题。
实时对话 AI：凭借每秒 1479 个 token 的惊人速度，它有望驱动真正“即时响应”的 AI 助手，让交互更像与人聊天，而不是干等着电脑“思考”。
编辑与润色工具：谷歌特别提到，扩散模型“在编辑等任务上表现出色”[5]。这意味着未来的写作助手或许能以前所未有的速度和质量，帮你修改、打磨文章。

Google DeepMind 官方公布的基准测试结果对比如下[5]：

这张表将 Gemini Diffusion 与 Gemini 2.0 Flash-Lite 在关键基准上做了对比。比较突出的成绩包括编程任务（LiveCodeBench 30.9%、MBPP 76.0%）和数学推理（AIME 2025 23.3%）。

这些基准测试结果最有趣的地方在于，它让我们同时看到了扩散模型的强项和短板。Gemini Diffusion 虽然速度炸裂，在某些结构化任务上也表现优异，但研究人员并没有打算在扩散模型和传统方法之间二选一——他们正在探索如何把两者结合起来。

原文发布于 Medium.