初识 Gemini Diffusion:谷歌在 AI 写作上的大胆新尝试

谷歌在 I/O 2025 发布的实验性研究模型 Gemini Diffusion,可能彻底改写 AI 文本生成的规则。本文带你了解扩散模型如何工作,以及它为何值得期待。

Image 6

Image generated by Google Gemini 2.5 Flash

5 月 20 日的 Google I/O 2025 上,谷歌发布了一项相当引人注目的新成果——Gemini Diffusion。这是一个实验性的研究模型,有可能会彻底颠覆 AI 生成文本的方式[1][2]。今天咱们就来聊聊,这项技术到底有什么不同,以及它对未来我们与 AI 交互可能意味着什么。

什么是扩散模型?

如果你一直在关注 AI 生图领域的动态,可能早就接触过扩散模型了,只是没意识到而已[3]。这类模型的工作方式与传统的文本生成器完全不同,过程听起来就很有意思:

  1. 从噪声开始:扩散模型并不是逐字逐句地“搭建”文本,而是先从随机噪声出发,再一步步把它打磨成有意义的内容。
  2. 迭代 refine:你可以把它想象成一位雕塑家,从一块大理石中慢慢凿出隐藏的形状。经过多轮打磨,模型不断剔除噪声,直到连贯的内容浮现出来。
  3. 并行生成:传统模型是一个词(或者说一个 token)接一个词地生成,而扩散模型可以同时产出整段内容——想象一下,一段话的多个部分同时落笔,是不是很神奇?

Google 的 Imagen 和 Veo 模型之所以能生成那些惊艳的图像和视频,靠的就是这套方法[4]。而现在,谷歌把它带到了文本领域。

Gemini Diffusion 是怎么工作的?

如果你用过 ChatGPT、Claude,或者之前的 Gemini 模型,那你已经体验过 AI 传统的文本生成方式了。这些模型叫做自回归大语言模型(autoregressive LLMs),它们逐字生成内容,每个新词都依赖于前面所有的词。就像从左到右写句子,永远没法往前看。

这种方式效果不错,但在速度和偶尔的质量上都有明显的短板[5]。如果你曾觉得 AI 写到一半好像忘了自己前面在说什么,有一部分原因就是这种逐字生成的机制。

Gemini Diffusion 走了一条完全不同的路。据 Google DeepMind 介绍,它“通过逐步精炼噪声来学习生成输出”。也就是说,它能在生成过程中“自动纠错”,从而有望产出更连贯、更一致的文本[5]。

目前,Gemini Diffusion 仍是一个实验性的研究模型,还不是成品。谷歌正在把它开放给“受信任的测试者”,收集反馈、打磨技术,然后再考虑更广泛地开放[5]。你可以把它看作是对 AI 文本生成未来的一种预演。

扩散模型做文本,优势在哪?

谷歌总结了这款新模型的几个核心优势,听起来相当有吸引力:

  1. 闪电般的速度:这可能是最让人眼前一亮的地方。Gemini Diffusion 的生成速度达到了惊人的每秒 1479 个 token,额外开销仅 0.84 秒[5]。作为对比,谷歌此前以快著称的 Gemini 2.0 Flash 大约是每秒 250 个 token——也就是说,Diffusion 差不多是它的 6 倍快[5]。
  2. 更连贯的回复:因为它能同时生成整段文本,而不是一个词一个词地蹦,模型理论上能输出更连贯、更一致的回答[5]。如果你遇到过 AI 回复写到一半突然“跑偏”的情况,扩散模型或许能解决这个问题。
  3. 自我纠错:迭代的精炼过程让模型在生成时就能发现并修正错误[5]。就像内置了一位编辑,在你看到内容之前就已经审阅并优化了一遍。
  4. 高效能:早期基准测试显示,Gemini Diffusion 的性能可以媲美规模更大的模型,同时速度却快得多[5]。这意味着,未来我们可能不需要庞大的算力,也能获得强大的 AI 能力。

潜在应用场景

从谷歌公布的基准数据来看,Gemini Diffusion 在以下几个方向特别值得期待:

  1. 编程辅助:在 HumanEval(89.6%)和 MBPP(76.0%)等代码基准测试中,它的表现相当亮眼。这种能力可能会改变开发者使用 AI 编程助手的方式。想象一下,一个编程助手不仅能给你建议,还能同时快速编辑和优化整段函数。
  2. 数学与科学解题:模型在复杂数学推理任务上也展现了潜力,AIME 2025 得分 23.3%,GPQA Diamond 得分 40.4%。这对学生、科研人员以及专业人士来说,意味着能更高效地攻克难题。
  3. 实时对话 AI:凭借每秒 1479 个 token 的惊人速度,它有望驱动真正“即时响应”的 AI 助手,让交互更像与人聊天,而不是干等着电脑“思考”。
  4. 编辑与润色工具:谷歌特别提到,扩散模型“在编辑等任务上表现出色”[5]。这意味着未来的写作助手或许能以前所未有的速度和质量,帮你修改、打磨文章。

基准测试表现

Google DeepMind 官方公布的基准测试结果对比如下[5]:

Image 7

这张表将 Gemini Diffusion 与 Gemini 2.0 Flash-Lite 在关键基准上做了对比。比较突出的成绩包括编程任务(LiveCodeBench 30.9%、MBPP 76.0%)和数学推理(AIME 2025 23.3%)。

混合路线

这些基准测试结果最有趣的地方在于,它让我们同时看到了扩散模型的强项和短板。Gemini Diffusion 虽然速度炸裂,在某些结构化任务上也表现优异,但研究人员并没有打算在扩散模型和传统方法之间二选一——他们正在探索如何把两者结合起来。

原文发布于 Medium.