2026年6月25日 木曜日
AI時短ラボ
モデル· 約4

Google、ローカル動作の拡散型テキスト生成モデル「Diffusion Gemma」を公開

Googleが256トークンを同時処理する拡散型テキスト生成モデル「Diffusion Gemma」を公開。従来の自己回帰型と異なり、テキストを並列生成することで最大4倍の速度向上を実現する。

  1. GoogleがGemmaファミリーの新モデル「Diffusion Gemma」を公開。256トークンのチャンクを同時に生成する拡散型アプローチを採用
  2. 従来の自己回帰型(1トークンずつ逐次生成)と異なり、最大4倍の生成速度向上をうたう
  3. ローカル動作を前提とした開発者向けモデルで、コード生成やツール連携などの用途を想定

何が変わるのか

従来のLLMは「自己回帰型」──テキストを1トークンずつ順番に生成する。Diffusion Gemmaはこのアプローチを根本から変え、画像生成AIで使われる「拡散モデル」の手法をテキスト生成に応用した。

具体的には、256トークン(おおよそ日本語で100〜150文字相当)のブロックを一度に並列生成する。ノイズから段階的にテキストを「精製」していく仕組みで、Google DeepMindによると従来の自己回帰型と比較して最大4倍の生成速度が得られるとしている。

ローカル動作・開発者向け

Diffusion GemmaはGemmaファミリー(Google DeepMindのオープンモデルシリーズ)に属し、ローカル環境での動作を前提としている。クラウドAPIを経由せず、開発者の手元マシンで実行できる設計だ。

主な想定用途は以下のとおり。

  • コード生成:関数やクラスの雛形など、構造が予測しやすいテキストの高速生成
  • ツール連携:開発環境やCIパイプラインへの組み込み
  • バッチ処理:大量のテキスト変換・分類タスクの高速化

トレードオフ:速度と品質

拡散型のアプローチには速度面のメリットがある一方、出力品質にはトレードオフが存在する。Google DeepMindの発表でも「reduced output quality」(出力品質の低下)が言及されている。

自己回帰型が各トークンを前のトークンに依存して生成するのに対し、拡散型は並列生成であるため、長い文脈での一貫性や、微妙なニュアンスの表現では自己回帰型に劣る場面が想定される。

このため、Diffusion Gemmaは「最高品質の文章生成」よりも「構造化されたテキストの高速生成」に適したモデルと位置づけられる。

技術的な位置づけ

テキスト生成に拡散モデルを適用する研究は以前から存在していたが、実用レベルのモデルとしてGoogleがGemmaブランドで公開したのは注目に値する。

富士通が発表したPHOTONアーキテクチャ(Transformerの代替で475倍の推論性能を主張)とは異なるアプローチだが、いずれも「Transformer + 自己回帰」という現在の主流パラダイムに対する代替手法を模索する動きの一環である。

出典・但し書き

出典:

但し書き:

  • 「最大4倍の速度向上」はGoogleの発表に基づく数値であり、ハードウェア構成や入力条件によって変動しうる
  • 出力品質の低下の程度については、定量的なベンチマーク比較がまだ十分に公開されていない段階
  • モデルの具体的なパラメータ数・ライセンス条件の詳細は公式ページを参照されたい
シェア: ポスト はてブ

📎 出典・一次ソース

このニュースの解説動画も作っています

解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。

コメント

まだコメントはありません。最初のコメントを書いてみませんか?

AIについて聞きたいことはありますか?

質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。

質問箱を見る →

関連記事