2026年6月25日 木曜日
AI時短ラボ
研究· 約4

富士通が「PHOTON」発表──Transformerに代わるLLMアーキテクチャ、GPU当たり最大475倍の推論性能

富士通が大規模言語モデル向け新アーキテクチャ「PHOTON」を発表。トークン単位でなく意味のまとまりで階層処理し、GPU当たり最大475倍のマルチクエリー性能を1.2Bモデルで確認。ACL 2026でオーラル発表予定。

富士通が2026年6月24日、大規模言語モデル(LLM)向けの新アーキテクチャ「PHOTON」を発表した。現在主流のTransformerに代わる設計で、GPU当たり最大475倍のマルチクエリー推論性能を実現したとしている。

  • Transformerのトークン単位処理を廃し、「意味のまとまり」で階層的に処理
  • 1.2Bパラメータモデルで、GPU当たり最大475倍のマルチクエリー性能を確認
  • KVキャッシュ使用量を大幅削減し、同一GPUメモリで複数クエリを並列処理
  • ACL 2026(7月2日、サンディエゴ)のオーラルセッションで論文発表予定

PHOTONとは何か

PHOTON(Parallel Hierarchical Operation for TOp-down Networks)は、富士通が開発したLLM向けの新しいアーキテクチャ。

現在のLLMはほぼすべてTransformerベースで動いている。Transformerは文章を細かいトークン単位に分解し、すべてのトークン間の関係を計算する。入力が長い場合や同時処理が多い場合、メモリアクセスが増加して処理速度が低下する。

PHOTONはこのアプローチを変え、テキストを「意味のまとまり」として捉えて階層的に処理する。富士通によると、これにより計算量を削減し、KVキャッシュ(推論時にメモリを大量消費する主要因)の使用量も大幅に抑えられるという。

検証結果

富士通の発表によると、600M・900M・1.2Bパラメータの3サイズで検証を実施。

  • 1.2BモデルでGPU当たり最大475倍のマルチクエリー性能を確認
  • わずか9クエリーの統合で、従来のTransformerと同等の生成品質を達成
  • 同一GPUメモリ上で複数の結果を並列取得可能に

応用先

富士通が挙げている応用分野は以下の通り。

  • 長文書の処理
  • 多数ユーザーからの同時利用対応
  • マルチエージェント処理
  • 生成AI推論の高速化と低コスト化

ACL 2026で発表予定

論文「PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation」は、2026年7月2日に米国サンディエゴで開催されるACL 2026のオーラルセッションで発表予定。ACLは自然言語処理分野の主要国際会議であり、オーラル採択は査読を通過していることを意味する。

出典・但し書き

  • 本記事の情報は富士通の公式発表(2026年6月24日)に基づく。
  • 「475倍」は1.2Bパラメータモデルでの検証結果。現在の主要LLM(100B超)のスケールで同様の倍率が出るかは、発表文からは読み取れない。
  • 実用化時期について、富士通は具体的な言及をしていない。
  • 論文の全文はACL 2026発表時(7月2日)以降に公開されると見られる。現時点で第三者による独立検証は行われていない。
シェア: ポスト はてブ

📎 出典・一次ソース

このニュースの解説動画も作っています

解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。

コメント

まだコメントはありません。最初のコメントを書いてみませんか?

AIについて聞きたいことはありますか?

質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。

質問箱を見る →

関連記事