富士通が「PHOTON」発表──Transformerに代わるLLMアーキテクチャ、GPU当たり最大475倍の推論性能
富士通が大規模言語モデル向け新アーキテクチャ「PHOTON」を発表。トークン単位でなく意味のまとまりで階層処理し、GPU当たり最大475倍のマルチクエリー性能を1.2Bモデルで確認。ACL 2026でオーラル発表予定。
富士通が2026年6月24日、大規模言語モデル(LLM)向けの新アーキテクチャ「PHOTON」を発表した。現在主流のTransformerに代わる設計で、GPU当たり最大475倍のマルチクエリー推論性能を実現したとしている。
- Transformerのトークン単位処理を廃し、「意味のまとまり」で階層的に処理
- 1.2Bパラメータモデルで、GPU当たり最大475倍のマルチクエリー性能を確認
- KVキャッシュ使用量を大幅削減し、同一GPUメモリで複数クエリを並列処理
- ACL 2026(7月2日、サンディエゴ)のオーラルセッションで論文発表予定
PHOTONとは何か
PHOTON(Parallel Hierarchical Operation for TOp-down Networks)は、富士通が開発したLLM向けの新しいアーキテクチャ。
現在のLLMはほぼすべてTransformerベースで動いている。Transformerは文章を細かいトークン単位に分解し、すべてのトークン間の関係を計算する。入力が長い場合や同時処理が多い場合、メモリアクセスが増加して処理速度が低下する。
PHOTONはこのアプローチを変え、テキストを「意味のまとまり」として捉えて階層的に処理する。富士通によると、これにより計算量を削減し、KVキャッシュ(推論時にメモリを大量消費する主要因)の使用量も大幅に抑えられるという。
検証結果
富士通の発表によると、600M・900M・1.2Bパラメータの3サイズで検証を実施。
- 1.2BモデルでGPU当たり最大475倍のマルチクエリー性能を確認
- わずか9クエリーの統合で、従来のTransformerと同等の生成品質を達成
- 同一GPUメモリ上で複数の結果を並列取得可能に
応用先
富士通が挙げている応用分野は以下の通り。
- 長文書の処理
- 多数ユーザーからの同時利用対応
- マルチエージェント処理
- 生成AI推論の高速化と低コスト化
ACL 2026で発表予定
論文「PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation」は、2026年7月2日に米国サンディエゴで開催されるACL 2026のオーラルセッションで発表予定。ACLは自然言語処理分野の主要国際会議であり、オーラル採択は査読を通過していることを意味する。
出典・但し書き
- 本記事の情報は富士通の公式発表(2026年6月24日)に基づく。
- 「475倍」は1.2Bパラメータモデルでの検証結果。現在の主要LLM(100B超)のスケールで同様の倍率が出るかは、発表文からは読み取れない。
- 実用化時期について、富士通は具体的な言及をしていない。
- 論文の全文はACL 2026発表時(7月2日)以降に公開されると見られる。現時点で第三者による独立検証は行われていない。
📎 出典・一次ソース
このニュースの解説動画も作っています
解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。
コメント
まだコメントはありません。最初のコメントを書いてみませんか?
AIについて聞きたいことはありますか?
質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。
質問箱を見る →