Google、Gemini 2.5 ProにDeep Think推論モードを追加――MMLU-Pro 89.8%で公開モデル首位を主張

Googleは2026年6月22日、Gemini 2.5 Proに拡張推論モード「Deep Think」を展開開始した。MMLU-Pro 89.8%、HumanEval+ 94.1%など複数ベンチマークで公開モデル最高スコアを報告する一方、ソフトウェアエンジニアリング指標ではFable 5に後れを取る。

Googleは2026年6月22日、フラッグシップモデルGemini 2.5 Proに拡張推論モードDeep Thinkの一般展開を開始した。Google公式ブログによると、Deep Thinkは複雑な問題に対し通常よりも大幅に多くの計算リソースを割り当てることで、科学・数学・汎用推論の各分野でGoogleが「公開モデル最高」と主張するスコアを記録している。

Deep Thinkの仕組み

並列思考アーキテクチャ

Google公式ブログによると、Deep Thinkの核心は**並列思考（parallel thinking）**にある。通常のモデルが1つの推論パスを順番にたどるのに対し、Deep Thinkは「複数のアイデアを同時に生成し、修正・統合しながら最良の回答に到達する」仕組みを採用している。

TechTargetの解説によれば、アーキテクチャにはスパース混合エキスパート（Sparse Mixture-of-Experts）Transformerが採用されており、長い推論チェーンを支えるために「先進的な強化学習手法」が使われているとされる。

コンテキストウィンドウの拡張

ADI Insightsの報道によると、Deep Think搭載版のGemini 2.5 Proは200万トークンのコンテキストウィンドウを持つ。これは従来のProの2倍にあたり、コードベース全体、書籍1冊分、数時間分の動画などを1セッションで処理可能とGoogleは説明している。

ベンチマークスコア

ADI Insightsが2026年6月22日時点で報じた主要ベンチマークスコアは以下のとおり。

ベンチマーク	Gemini 2.5 Pro Deep Think	比較：Fable 5	比較：GPT-5.5
MMLU-Pro	89.8%	―	―
GPQA Diamond	82.4%	79.1%	76.3%
HumanEval+	94.1%	―	―
MATH-500	97.2%	―	―
SWE-bench Verified	76.4%	88.6%	67.2%
ARC-AGI-2	48.3%	―	―

Googleは、MMLU-Proの89.8%を「公開モデル最高」、HumanEval+の94.1%を「過去最高記録」と主張している。一方、ソフトウェアエンジニアリングの指標であるSWE-bench Verifiedでは76.4%にとどまり、AnthropicのFable 5（88.6%）に12ポイント以上の差をつけられている。

また、TechTargetによると、Deep Thinkは数学オリンピック（IMO 2025）で銅メダル相当の60.7%を達成しており、標準Gemini 2.5 Pro（31.6%）やOpenAI o3（16.7%）を上回ったとされる。

ADI Insightsによれば、Deep ThinkモードはMulti-stepの複雑な問題で標準モードに比べ15〜25%の精度向上が報告されている。ただし応答時間は3〜5倍に延びる。

開発者向け：API利用とThinking Budget

利用可能プラットフォーム

Google公式ブログによると、Deep ThinkはGemini API、Google AI Studio、Vertex AIの3プラットフォームで即日利用可能になった。テキスト、コード、画像、音声、動画、構造化データのマルチモーダル入力に対応する。

Thinking Budgetの制御

Google AI開発者ドキュメントによると、開発者はthinking_levelパラメータで推論の深さを3段階（low/medium/high）に制御できる。

low：事実検索や分類など単純なタスク向け
medium：概念比較や創造的推論などの中程度のタスク向け（デフォルト）
high：高度なコーディング、数学、多段階計画向け

thinking_summariesパラメータを"auto"に設定すると、モデルの内部推論過程の要約を取得できる。

料金体系

Google AI公式の料金ページ（2026年6月時点）によると、Gemini 2.5 Proの標準API料金は以下のとおり。

項目	200kトークン以下	200kトークン超
入力	$1.25 / 100万トークン	$2.50 / 100万トークン
出力	$10.00 / 100万トークン	$15.00 / 100万トークン

ADI Insightsによると、Deep Thinkモードは標準料金の約4倍のコストがかかるとされる。これはThinkingトークン（内部推論に使われるトークン）が出力トークンとして課金されるためで、Google開発者ドキュメントも「課金は、要約だけでなくモデルが生成する全Thoughtトークンに基づく」と明記している。

コンシューマー向けには、Google AI Ultraサブスクリプション（Finoutの報道では3か月$124.99、約月額$41.67）の加入者にDeep Thinkが提供されている。

競合モデルとの位置づけ

OpenAI o3シリーズとの比較

Bind AIの比較記事によると、コーディング領域ではClaude 4 OpusがSWE-benchで72.5%、OpenAI o3 Proが71.7%、Gemini 2.5 Proが63.8%という序列が報告されている。一方、競技プログラミングのCodeforces Eloではo3 Proが2727と高いスコアを持つ。

Deep Thinkを有効にした状態では、TechTargetが報じたLiveCodeBench v6でGemini 2.5 Pro Deep Thinkが87.6%を記録し、標準Pro（74.2%）やo3（72.0%）を上回ったとされる。

Claude Extended Thinkingとの比較

Bind AIによると、Claude 4 Opusは長時間の自律的タスク（最大7時間の連続作業が可能）やデバッグで強みを持つ。一方、Gemini 2.5 Proはコンテキストウィンドウの広さ（200万トークン）とコストパフォーマンスで優位に立つとされている。

推論アプローチも異なる。ADI Insightsによると、OpenAIのo3がモンテカルロ木探索などの動的リソース配分を使うのに対し、Gemini Deep Thinkは並列思考による同時多方向探索を特徴としている。Claudeの拡張思考は段階的な問題分解に強みがあるとBind AIは報じている。

開発者にとっての意味

Deep Thinkの登場により、開発者が拡張推論モードを選択できるモデルはOpenAI o-シリーズ、Claude Extended Thinking、Gemini Deep Thinkの3系統となった。各モデルの得意領域は異なり、2026年6月時点の各社報告値に基づけば以下のように整理できる。

科学・数学・汎用推論：Gemini 2.5 Pro Deep Think（Google発表値）
ソフトウェアエンジニアリング・長時間エージェント作業：Fable 5 / Claude 4 Opus（Anthropic発表値）
競技プログラミング：OpenAI o3 Pro（OpenAI発表値）

Thinking Budgetによるコスト制御が可能な点は実務上の利点となる。単純なタスクではlowに設定してコストを抑え、複雑な推論が必要な場面でのみhighに切り替えるという運用ができる。

但し書き

上記ベンチマークスコアはADI Insights（Medium）およびTechTargetの報道に基づく2026年6月22日時点の数値であり、Google公式の技術論文で独立検証された数値とは限らない。各社ベンチマークスコアは自社報告値であり、測定条件が統一されていない可能性がある
Deep Thinkモードの「約4倍」という料金倍率はADI Insightsの報道に基づく概算値であり、Google AI公式料金ページには2026年6月26日時点でDeep Think専用の料金体系は明示されていない。実際のコストはThinkingトークンの生成量に依存し、タスクにより大きく変動する
TechTargetによると、公開版のDeep Thinkは研究版と比べ「より複雑で数時間に及ぶ推論機能の一部を、日常利用向けの応答性と引き換えに削減している」とされている
テスト段階で「無害なリクエストを拒否する傾向が高い」ことがGoogle公式ブログで確認されている
競合比較で引用したBind AIの数値にはDeep Think有効時と無効時のスコアが混在している箇所があり、直接比較には注意が必要
Google AI Ultraサブスクリプションの価格はFinoutの報道に基づく。地域や時期により異なる可能性がある

Google、Gemini 2.5 ProにDeep Think推論モードを追加――MMLU-Pro 89.8%で公開モデル首位を主張

Deep Thinkの仕組み

並列思考アーキテクチャ

コンテキストウィンドウの拡張

ベンチマークスコア

開発者向け：API利用とThinking Budget

利用可能プラットフォーム

Thinking Budgetの制御

料金体系

競合モデルとの位置づけ

OpenAI o3シリーズとの比較

Claude Extended Thinkingとの比較

開発者にとっての意味

但し書き

📎 出典・一次ソース

このニュースの解説動画も作っています

コメント

AIについて聞きたいことはありますか？

関連記事

日本のSakana AIが「Fugu」発表──複数AIを束ねてClaude Opus 4.8を超えるベンチマーク

PFNが「PLaMo 3.0 Prime」公開──日本語性能でGPT-5.4 Miniに並び、コスト半額以下

NVIDIA Cosmos 3発表──物理AIのためのオープンなオムニモデル