Google、ローカル動作の拡散型テキスト生成モデル「Diffusion Gemma」を公開

Googleが256トークンを同時処理する拡散型テキスト生成モデル「Diffusion Gemma」を公開。従来の自己回帰型と異なり、テキストを並列生成することで最大4倍の速度向上を実現する。

GoogleがGemmaファミリーの新モデル「Diffusion Gemma」を公開。256トークンのチャンクを同時に生成する拡散型アプローチを採用

従来の自己回帰型（1トークンずつ逐次生成）と異なり、最大4倍の生成速度向上をうたう

ローカル動作を前提とした開発者向けモデルで、コード生成やツール連携などの用途を想定

何が変わるのか

従来のLLMは「自己回帰型」──テキストを1トークンずつ順番に生成する。Diffusion Gemmaはこのアプローチを根本から変え、画像生成AIで使われる「拡散モデル」の手法をテキスト生成に応用した。

具体的には、256トークン（おおよそ日本語で100〜150文字相当）のブロックを一度に並列生成する。ノイズから段階的にテキストを「精製」していく仕組みで、Google DeepMindによると従来の自己回帰型と比較して最大4倍の生成速度が得られるとしている。

ローカル動作・開発者向け

Diffusion GemmaはGemmaファミリー（Google DeepMindのオープンモデルシリーズ）に属し、ローカル環境での動作を前提としている。クラウドAPIを経由せず、開発者の手元マシンで実行できる設計だ。

主な想定用途は以下のとおり。

コード生成：関数やクラスの雛形など、構造が予測しやすいテキストの高速生成
ツール連携：開発環境やCIパイプラインへの組み込み
バッチ処理：大量のテキスト変換・分類タスクの高速化

トレードオフ：速度と品質

拡散型のアプローチには速度面のメリットがある一方、出力品質にはトレードオフが存在する。Google DeepMindの発表でも「reduced output quality」（出力品質の低下）が言及されている。

自己回帰型が各トークンを前のトークンに依存して生成するのに対し、拡散型は並列生成であるため、長い文脈での一貫性や、微妙なニュアンスの表現では自己回帰型に劣る場面が想定される。

このため、Diffusion Gemmaは「最高品質の文章生成」よりも「構造化されたテキストの高速生成」に適したモデルと位置づけられる。

技術的な位置づけ

テキスト生成に拡散モデルを適用する研究は以前から存在していたが、実用レベルのモデルとしてGoogleがGemmaブランドで公開したのは注目に値する。

富士通が発表したPHOTONアーキテクチャ（Transformerの代替で475倍の推論性能を主張）とは異なるアプローチだが、いずれも「Transformer + 自己回帰」という現在の主流パラダイムに対する代替手法を模索する動きの一環である。

出典・但し書き

出典:

Diffusion Gemma - Google DeepMind

但し書き:

「最大4倍の速度向上」はGoogleの発表に基づく数値であり、ハードウェア構成や入力条件によって変動しうる
出力品質の低下の程度については、定量的なベンチマーク比較がまだ十分に公開されていない段階
モデルの具体的なパラメータ数・ライセンス条件の詳細は公式ページを参照されたい

Google、ローカル動作の拡散型テキスト生成モデル「Diffusion Gemma」を公開

何が変わるのか

ローカル動作・開発者向け

トレードオフ：速度と品質

技術的な位置づけ

出典・但し書き

📎 出典・一次ソース

このニュースの解説動画も作っています

コメント

AIについて聞きたいことはありますか？

関連記事

日本のSakana AIが「Fugu」発表──複数AIを束ねてClaude Opus 4.8を超えるベンチマーク

PFNが「PLaMo 3.0 Prime」公開──日本語性能でGPT-5.4 Miniに並び、コスト半額以下

NVIDIA Cosmos 3発表──物理AIのためのオープンなオムニモデル