富士通が「PHOTON」発表──Transformerに代わるLLMアーキテクチャ、GPU当たり最大475倍の推論性能

富士通が大規模言語モデル向け新アーキテクチャ「PHOTON」を発表。トークン単位でなく意味のまとまりで階層処理し、GPU当たり最大475倍のマルチクエリー性能を1.2Bモデルで確認。ACL 2026でオーラル発表予定。

富士通が2026年6月24日、大規模言語モデル（LLM）向けの新アーキテクチャ「PHOTON」を発表した。現在主流のTransformerに代わる設計で、GPU当たり最大475倍のマルチクエリー推論性能を実現したとしている。

Transformerのトークン単位処理を廃し、「意味のまとまり」で階層的に処理

1.2Bパラメータモデルで、GPU当たり最大475倍のマルチクエリー性能を確認

KVキャッシュ使用量を大幅削減し、同一GPUメモリで複数クエリを並列処理

ACL 2026（7月2日、サンディエゴ）のオーラルセッションで論文発表予定

PHOTONとは何か

PHOTON（Parallel Hierarchical Operation for TOp-down Networks）は、富士通が開発したLLM向けの新しいアーキテクチャ。

現在のLLMはほぼすべてTransformerベースで動いている。Transformerは文章を細かいトークン単位に分解し、すべてのトークン間の関係を計算する。入力が長い場合や同時処理が多い場合、メモリアクセスが増加して処理速度が低下する。

PHOTONはこのアプローチを変え、テキストを「意味のまとまり」として捉えて階層的に処理する。富士通によると、これにより計算量を削減し、KVキャッシュ（推論時にメモリを大量消費する主要因）の使用量も大幅に抑えられるという。

検証結果

富士通の発表によると、600M・900M・1.2Bパラメータの3サイズで検証を実施。

1.2BモデルでGPU当たり最大475倍のマルチクエリー性能を確認
わずか9クエリーの統合で、従来のTransformerと同等の生成品質を達成
同一GPUメモリ上で複数の結果を並列取得可能に

応用先

富士通が挙げている応用分野は以下の通り。

長文書の処理
多数ユーザーからの同時利用対応
マルチエージェント処理
生成AI推論の高速化と低コスト化

ACL 2026で発表予定

論文「PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation」は、2026年7月2日に米国サンディエゴで開催されるACL 2026のオーラルセッションで発表予定。ACLは自然言語処理分野の主要国際会議であり、オーラル採択は査読を通過していることを意味する。

出典・但し書き

本記事の情報は富士通の公式発表（2026年6月24日）に基づく。
「475倍」は1.2Bパラメータモデルでの検証結果。現在の主要LLM（100B超）のスケールで同様の倍率が出るかは、発表文からは読み取れない。
実用化時期について、富士通は具体的な言及をしていない。
論文の全文はACL 2026発表時（7月2日）以降に公開されると見られる。現時点で第三者による独立検証は行われていない。

富士通が「PHOTON」発表──Transformerに代わるLLMアーキテクチャ、GPU当たり最大475倍の推論性能

PHOTONとは何か

検証結果

応用先

ACL 2026で発表予定

出典・但し書き

📎 出典・一次ソース

このニュースの解説動画も作っています

コメント

AIについて聞きたいことはありますか？

関連記事

教師の5%がAI利用量の38%を占める — 約500万件のログが示す教育AI格差

AIは正しい答えを出した後、反論されると59%撤回する — 追従性の問題

GPT-4が人間アナリストに勝った — Chicago Boothの財務分析研究を読む