日本のSakana AIが「Fugu」発表──複数AIを束ねてClaude Opus 4.8を超えるベンチマーク
東京拠点のSakana AIが2026年6月22日に発表したマルチエージェントシステム「Fugu」は、SWE Bench ProでClaude Opus 4.8を上回る73.7%を記録。Transformer論文共著者のLlion Jones CTOが率い、ICLR 2026採択の2論文がベース。料金はFugu Ultra出力$30/1Mトークン。
東京拠点のAI企業Sakana AIが2026年6月22日、マルチエージェント・オーケストレーション・システム「Fugu」を発表した。複数のAIモデルを動的に束ねて指揮するアプローチで、コーディング・推論・科学の主要ベンチマークでClaude Opus 4.8やGPT-5.5を上回る数値を記録している。
- SWE Bench ProでFugu Ultra 73.7%、Claude Opus 4.8は69.2%(Sakana AI公式発表)
- ICLR 2026に採択された2論文(TRINITY・Conductor)がベース。単一モデルではなくマルチエージェント協調
- 料金はFugu Ultra出力$30/100万トークン。サブスクはStandard $20〜Max $200/月
何が起きたか
Sakana AI公式によると、Fuguは「マルチエージェント・オーケストレーション・システム」であり、単一の巨大モデルではない。複数のAIモデルに対して「Thinker(思考)」「Worker(実行)」「Verifier(検証)」の3つの役割を動的に割り当て、1つのAPIとして提供する。
ラインナップは2種類。日常利用向けの「Fugu」と、複雑な問題に最適化した「Fugu Ultra」。
ベンチマーク結果
Sakana AI公式が発表したベンチマーク(2026年6月22日時点)は以下の通り。
| ベンチマーク | Fugu | Fugu Ultra | Opus 4.8 | Gemini 3.1 Pro | GPT-5.5 |
|---|---|---|---|---|---|
| SWE Bench Pro* | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
*SWE Bench Proはmini-swe-agentをスキャフォールディングに使用。ベースラインの一部はプロバイダー報告値(†記号付き)。
Sakana AI公式のグラフにはFable 5(80.0、SWE Bench Pro)やMythos Preview(86.1、CharXiv Reasoning)も掲載されているが、いずれも「一般にアクセスできない」「Fuguのエージェントプールにも含まれていない」と注記されている。すべてのベンチマークで1位というわけではない。
技術の中身:ICLR 2026の2論文
Fuguの基盤技術は、いずれもICLR 2026に採択された2本の査読済み論文。
TRINITYは、小さなAI(SLM)を「指揮者」として、複数の大規模モデルにThinker/Worker/Verifierの役割を割り当てる。この指揮者は進化的アルゴリズムで自動最適化されており、人間が手で設計したものではない。
Conductorは、AIがAIに出す指示の言葉そのものを強化学習で最適化する。人間がプロンプトを書くのではなく、AI自身が試行錯誤して効果的な指揮の仕方を学ぶ。
料金:正直に言って安くはない
サブスクリプションは3段階。
| プラン | 月額 | 使用量 |
|---|---|---|
| Standard | $20 | 基本 |
| Pro | $100 | Standardの10倍 |
| Max | $200 | Standardの20倍 |
企業向け従量課金(Fugu Ultra)は、入力$5/100万トークン、出力$30/100万トークン。コンテキスト272K超では出力$45/100万トークンに上がる。
参考として、Claude Sonnet 4.6の出力は$15/100万トークン、Claude Opus 4.8は$75/100万トークン。Fugu Ultraの出力単価はSonnetの2倍、Opusの約4割。ただしマルチエージェントゆえに1タスクあたりのトークン消費量は単一モデルより多くなる可能性がある。
Sakana AI公式によると「複数エージェントが動く場合も、最も高いモデル1つの料金で済み、積み上げにはならない」。
Sakana AIとは
2023年7月、東京で設立。オフィスは麻布台ヒルズ。
- CTO Llion Jones: 「Attention Is All You Need」(Transformer論文)の共著者。元Google Brain
- CEO David Ha: 元Google Brain日本AIチーム責任者
- Chairman 伊藤錬: 元外務省官僚、メルカリ・Stability AI元役員
投資家にはGoogle、NVIDIA、Khosla Ventures、伊藤忠、KDDI、NEC、富士通、三菱UFJ、みずほ、野村、SBIが名を連ねる(Sakana AI会社情報ページによる)。
公式ページには「輸出管理のリスクなしにフロンティア性能を提供する」との記述があり、特定モデルへの依存による地政学リスクの分散を売りの一つとしている。
正直な注記
- ベンチマーク結果はSakana AI自身の公表値であり、第三者の独立検証はまだない
- Fuguは単一モデルではなくマルチエージェントシステム。単一モデルとの直接比較はフェアかどうか議論がある
- 定性デモ(ルービックキューブ300問全正解、論文再現100倍速など)も自社発表
- EU/EEAではGDPR対応中のため利用不可(2026年6月22日時点)
- 2026年7月末までの契約で初月と同額の2ヶ月目無料プロモーションあり
この記事について
本記事は2026年6月22日時点の情報に基づく。Sakana AI公式発表ページを一次ソースとして使用した。外部の独立検証が公表され次第、追記または続報記事で更新する。
📎 出典・一次ソース
このニュースの解説動画も作っています
解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。
コメント
まだコメントはありません。最初のコメントを書いてみませんか?
AIについて聞きたいことはありますか?
質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。
質問箱を見る →