Google、Gemini 2.5 ProにDeep Think推論モードを追加――MMLU-Pro 89.8%で公開モデル首位を主張
Googleは2026年6月22日、Gemini 2.5 Proに拡張推論モード「Deep Think」を展開開始した。MMLU-Pro 89.8%、HumanEval+ 94.1%など複数ベンチマークで公開モデル最高スコアを報告する一方、ソフトウェアエンジニアリング指標ではFable 5に後れを取る。
Googleは2026年6月22日、フラッグシップモデルGemini 2.5 Proに拡張推論モードDeep Thinkの一般展開を開始した。Google公式ブログによると、Deep Thinkは複雑な問題に対し通常よりも大幅に多くの計算リソースを割り当てることで、科学・数学・汎用推論の各分野でGoogleが「公開モデル最高」と主張するスコアを記録している。
Deep Thinkの仕組み
並列思考アーキテクチャ
Google公式ブログによると、Deep Thinkの核心は**並列思考(parallel thinking)**にある。通常のモデルが1つの推論パスを順番にたどるのに対し、Deep Thinkは「複数のアイデアを同時に生成し、修正・統合しながら最良の回答に到達する」仕組みを採用している。
TechTargetの解説によれば、アーキテクチャにはスパース混合エキスパート(Sparse Mixture-of-Experts)Transformerが採用されており、長い推論チェーンを支えるために「先進的な強化学習手法」が使われているとされる。
コンテキストウィンドウの拡張
ADI Insightsの報道によると、Deep Think搭載版のGemini 2.5 Proは200万トークンのコンテキストウィンドウを持つ。これは従来のProの2倍にあたり、コードベース全体、書籍1冊分、数時間分の動画などを1セッションで処理可能とGoogleは説明している。
ベンチマークスコア
ADI Insightsが2026年6月22日時点で報じた主要ベンチマークスコアは以下のとおり。
| ベンチマーク | Gemini 2.5 Pro Deep Think | 比較:Fable 5 | 比較:GPT-5.5 |
|---|---|---|---|
| MMLU-Pro | 89.8% | ― | ― |
| GPQA Diamond | 82.4% | 79.1% | 76.3% |
| HumanEval+ | 94.1% | ― | ― |
| MATH-500 | 97.2% | ― | ― |
| SWE-bench Verified | 76.4% | 88.6% | 67.2% |
| ARC-AGI-2 | 48.3% | ― | ― |
Googleは、MMLU-Proの89.8%を「公開モデル最高」、HumanEval+の94.1%を「過去最高記録」と主張している。一方、ソフトウェアエンジニアリングの指標であるSWE-bench Verifiedでは76.4%にとどまり、AnthropicのFable 5(88.6%)に12ポイント以上の差をつけられている。
また、TechTargetによると、Deep Thinkは数学オリンピック(IMO 2025)で銅メダル相当の60.7%を達成しており、標準Gemini 2.5 Pro(31.6%)やOpenAI o3(16.7%)を上回ったとされる。
ADI Insightsによれば、Deep ThinkモードはMulti-stepの複雑な問題で標準モードに比べ15〜25%の精度向上が報告されている。ただし応答時間は3〜5倍に延びる。
開発者向け:API利用とThinking Budget
利用可能プラットフォーム
Google公式ブログによると、Deep ThinkはGemini API、Google AI Studio、Vertex AIの3プラットフォームで即日利用可能になった。テキスト、コード、画像、音声、動画、構造化データのマルチモーダル入力に対応する。
Thinking Budgetの制御
Google AI開発者ドキュメントによると、開発者はthinking_levelパラメータで推論の深さを3段階(low/medium/high)に制御できる。
- low:事実検索や分類など単純なタスク向け
- medium:概念比較や創造的推論などの中程度のタスク向け(デフォルト)
- high:高度なコーディング、数学、多段階計画向け
thinking_summariesパラメータを"auto"に設定すると、モデルの内部推論過程の要約を取得できる。
料金体系
Google AI公式の料金ページ(2026年6月時点)によると、Gemini 2.5 Proの標準API料金は以下のとおり。
| 項目 | 200kトークン以下 | 200kトークン超 |
|---|---|---|
| 入力 | $1.25 / 100万トークン | $2.50 / 100万トークン |
| 出力 | $10.00 / 100万トークン | $15.00 / 100万トークン |
ADI Insightsによると、Deep Thinkモードは標準料金の約4倍のコストがかかるとされる。これはThinkingトークン(内部推論に使われるトークン)が出力トークンとして課金されるためで、Google開発者ドキュメントも「課金は、要約だけでなくモデルが生成する全Thoughtトークンに基づく」と明記している。
コンシューマー向けには、Google AI Ultraサブスクリプション(Finoutの報道では3か月$124.99、約月額$41.67)の加入者にDeep Thinkが提供されている。
競合モデルとの位置づけ
OpenAI o3シリーズとの比較
Bind AIの比較記事によると、コーディング領域ではClaude 4 OpusがSWE-benchで72.5%、OpenAI o3 Proが71.7%、Gemini 2.5 Proが63.8%という序列が報告されている。一方、競技プログラミングのCodeforces Eloではo3 Proが2727と高いスコアを持つ。
Deep Thinkを有効にした状態では、TechTargetが報じたLiveCodeBench v6でGemini 2.5 Pro Deep Thinkが87.6%を記録し、標準Pro(74.2%)やo3(72.0%)を上回ったとされる。
Claude Extended Thinkingとの比較
Bind AIによると、Claude 4 Opusは長時間の自律的タスク(最大7時間の連続作業が可能)やデバッグで強みを持つ。一方、Gemini 2.5 Proはコンテキストウィンドウの広さ(200万トークン)とコストパフォーマンスで優位に立つとされている。
推論アプローチも異なる。ADI Insightsによると、OpenAIのo3がモンテカルロ木探索などの動的リソース配分を使うのに対し、Gemini Deep Thinkは並列思考による同時多方向探索を特徴としている。Claudeの拡張思考は段階的な問題分解に強みがあるとBind AIは報じている。
開発者にとっての意味
Deep Thinkの登場により、開発者が拡張推論モードを選択できるモデルはOpenAI o-シリーズ、Claude Extended Thinking、Gemini Deep Thinkの3系統となった。各モデルの得意領域は異なり、2026年6月時点の各社報告値に基づけば以下のように整理できる。
- 科学・数学・汎用推論:Gemini 2.5 Pro Deep Think(Google発表値)
- ソフトウェアエンジニアリング・長時間エージェント作業:Fable 5 / Claude 4 Opus(Anthropic発表値)
- 競技プログラミング:OpenAI o3 Pro(OpenAI発表値)
Thinking Budgetによるコスト制御が可能な点は実務上の利点となる。単純なタスクではlowに設定してコストを抑え、複雑な推論が必要な場面でのみhighに切り替えるという運用ができる。
但し書き
- 上記ベンチマークスコアはADI Insights(Medium)およびTechTargetの報道に基づく2026年6月22日時点の数値であり、Google公式の技術論文で独立検証された数値とは限らない。各社ベンチマークスコアは自社報告値であり、測定条件が統一されていない可能性がある
- Deep Thinkモードの「約4倍」という料金倍率はADI Insightsの報道に基づく概算値であり、Google AI公式料金ページには2026年6月26日時点でDeep Think専用の料金体系は明示されていない。実際のコストはThinkingトークンの生成量に依存し、タスクにより大きく変動する
- TechTargetによると、公開版のDeep Thinkは研究版と比べ「より複雑で数時間に及ぶ推論機能の一部を、日常利用向けの応答性と引き換えに削減している」とされている
- テスト段階で「無害なリクエストを拒否する傾向が高い」ことがGoogle公式ブログで確認されている
- 競合比較で引用したBind AIの数値にはDeep Think有効時と無効時のスコアが混在している箇所があり、直接比較には注意が必要
- Google AI Ultraサブスクリプションの価格はFinoutの報道に基づく。地域や時期により異なる可能性がある
📎 出典・一次ソース
- Gemini 2.5: Deep Think is now rolling out — Google Blog ↗
- AI Update — Monday, June 22, 2026 — ADI Insights (Medium) ↗
- 'Deep Think' boosts the performance of Google's flagship Gemini AI model — TechCrunch ↗
- Gemini 2.5 Deep Think explained: Everything you need to know — TechTarget ↗
- Gemini Developer API pricing — Google AI for Developers ↗
- Gemini thinking — Google AI for Developers ↗
- Gemini 2.5 Deep Think vs Claude 4 Opus vs OpenAI o3 Pro Coding Comparison — Bind AI ↗
- Gemini Pricing in 2026 — Finout ↗
このニュースの解説動画も作っています
解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。
コメント
まだコメントはありません。最初のコメントを書いてみませんか?
AIについて聞きたいことはありますか?
質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。
質問箱を見る →