2026年6月26日 金曜日
AI時短ラボ
モデル· 約10

Google、Gemini 2.5 ProにDeep Think推論モードを追加――MMLU-Pro 89.8%で公開モデル首位を主張

Googleは2026年6月22日、Gemini 2.5 Proに拡張推論モード「Deep Think」を展開開始した。MMLU-Pro 89.8%、HumanEval+ 94.1%など複数ベンチマークで公開モデル最高スコアを報告する一方、ソフトウェアエンジニアリング指標ではFable 5に後れを取る。

Googleは2026年6月22日、フラッグシップモデルGemini 2.5 Proに拡張推論モードDeep Thinkの一般展開を開始した。Google公式ブログによると、Deep Thinkは複雑な問題に対し通常よりも大幅に多くの計算リソースを割り当てることで、科学・数学・汎用推論の各分野でGoogleが「公開モデル最高」と主張するスコアを記録している。

Deep Thinkの仕組み

並列思考アーキテクチャ

Google公式ブログによると、Deep Thinkの核心は**並列思考(parallel thinking)**にある。通常のモデルが1つの推論パスを順番にたどるのに対し、Deep Thinkは「複数のアイデアを同時に生成し、修正・統合しながら最良の回答に到達する」仕組みを採用している。

TechTargetの解説によれば、アーキテクチャにはスパース混合エキスパート(Sparse Mixture-of-Experts)Transformerが採用されており、長い推論チェーンを支えるために「先進的な強化学習手法」が使われているとされる。

コンテキストウィンドウの拡張

ADI Insightsの報道によると、Deep Think搭載版のGemini 2.5 Proは200万トークンのコンテキストウィンドウを持つ。これは従来のProの2倍にあたり、コードベース全体、書籍1冊分、数時間分の動画などを1セッションで処理可能とGoogleは説明している。

ベンチマークスコア

ADI Insightsが2026年6月22日時点で報じた主要ベンチマークスコアは以下のとおり。

ベンチマーク Gemini 2.5 Pro Deep Think 比較:Fable 5 比較:GPT-5.5
MMLU-Pro 89.8%
GPQA Diamond 82.4% 79.1% 76.3%
HumanEval+ 94.1%
MATH-500 97.2%
SWE-bench Verified 76.4% 88.6% 67.2%
ARC-AGI-2 48.3%

Googleは、MMLU-Proの89.8%を「公開モデル最高」、HumanEval+の94.1%を「過去最高記録」と主張している。一方、ソフトウェアエンジニアリングの指標であるSWE-bench Verifiedでは76.4%にとどまり、AnthropicのFable 5(88.6%)に12ポイント以上の差をつけられている。

また、TechTargetによると、Deep Thinkは数学オリンピック(IMO 2025)で銅メダル相当の60.7%を達成しており、標準Gemini 2.5 Pro(31.6%)やOpenAI o3(16.7%)を上回ったとされる。

ADI Insightsによれば、Deep ThinkモードはMulti-stepの複雑な問題で標準モードに比べ15〜25%の精度向上が報告されている。ただし応答時間は3〜5倍に延びる。

開発者向け:API利用とThinking Budget

利用可能プラットフォーム

Google公式ブログによると、Deep ThinkはGemini API、Google AI Studio、Vertex AIの3プラットフォームで即日利用可能になった。テキスト、コード、画像、音声、動画、構造化データのマルチモーダル入力に対応する。

Thinking Budgetの制御

Google AI開発者ドキュメントによると、開発者はthinking_levelパラメータで推論の深さを3段階(low/medium/high)に制御できる。

  • low:事実検索や分類など単純なタスク向け
  • medium:概念比較や創造的推論などの中程度のタスク向け(デフォルト)
  • high:高度なコーディング、数学、多段階計画向け

thinking_summariesパラメータを"auto"に設定すると、モデルの内部推論過程の要約を取得できる。

料金体系

Google AI公式の料金ページ(2026年6月時点)によると、Gemini 2.5 Proの標準API料金は以下のとおり。

項目 200kトークン以下 200kトークン超
入力 $1.25 / 100万トークン $2.50 / 100万トークン
出力 $10.00 / 100万トークン $15.00 / 100万トークン

ADI Insightsによると、Deep Thinkモードは標準料金の約4倍のコストがかかるとされる。これはThinkingトークン(内部推論に使われるトークン)が出力トークンとして課金されるためで、Google開発者ドキュメントも「課金は、要約だけでなくモデルが生成する全Thoughtトークンに基づく」と明記している。

コンシューマー向けには、Google AI Ultraサブスクリプション(Finoutの報道では3か月$124.99、約月額$41.67)の加入者にDeep Thinkが提供されている。

競合モデルとの位置づけ

OpenAI o3シリーズとの比較

Bind AIの比較記事によると、コーディング領域ではClaude 4 OpusがSWE-benchで72.5%、OpenAI o3 Proが71.7%、Gemini 2.5 Proが63.8%という序列が報告されている。一方、競技プログラミングのCodeforces Eloではo3 Proが2727と高いスコアを持つ。

Deep Thinkを有効にした状態では、TechTargetが報じたLiveCodeBench v6でGemini 2.5 Pro Deep Thinkが87.6%を記録し、標準Pro(74.2%)やo3(72.0%)を上回ったとされる。

Claude Extended Thinkingとの比較

Bind AIによると、Claude 4 Opusは長時間の自律的タスク(最大7時間の連続作業が可能)やデバッグで強みを持つ。一方、Gemini 2.5 Proはコンテキストウィンドウの広さ(200万トークン)とコストパフォーマンスで優位に立つとされている。

推論アプローチも異なる。ADI Insightsによると、OpenAIのo3がモンテカルロ木探索などの動的リソース配分を使うのに対し、Gemini Deep Thinkは並列思考による同時多方向探索を特徴としている。Claudeの拡張思考は段階的な問題分解に強みがあるとBind AIは報じている。

開発者にとっての意味

Deep Thinkの登場により、開発者が拡張推論モードを選択できるモデルはOpenAI o-シリーズ、Claude Extended Thinking、Gemini Deep Thinkの3系統となった。各モデルの得意領域は異なり、2026年6月時点の各社報告値に基づけば以下のように整理できる。

  • 科学・数学・汎用推論:Gemini 2.5 Pro Deep Think(Google発表値)
  • ソフトウェアエンジニアリング・長時間エージェント作業:Fable 5 / Claude 4 Opus(Anthropic発表値)
  • 競技プログラミング:OpenAI o3 Pro(OpenAI発表値)

Thinking Budgetによるコスト制御が可能な点は実務上の利点となる。単純なタスクではlowに設定してコストを抑え、複雑な推論が必要な場面でのみhighに切り替えるという運用ができる。

但し書き

  • 上記ベンチマークスコアはADI Insights(Medium)およびTechTargetの報道に基づく2026年6月22日時点の数値であり、Google公式の技術論文で独立検証された数値とは限らない。各社ベンチマークスコアは自社報告値であり、測定条件が統一されていない可能性がある
  • Deep Thinkモードの「約4倍」という料金倍率はADI Insightsの報道に基づく概算値であり、Google AI公式料金ページには2026年6月26日時点でDeep Think専用の料金体系は明示されていない。実際のコストはThinkingトークンの生成量に依存し、タスクにより大きく変動する
  • TechTargetによると、公開版のDeep Thinkは研究版と比べ「より複雑で数時間に及ぶ推論機能の一部を、日常利用向けの応答性と引き換えに削減している」とされている
  • テスト段階で「無害なリクエストを拒否する傾向が高い」ことがGoogle公式ブログで確認されている
  • 競合比較で引用したBind AIの数値にはDeep Think有効時と無効時のスコアが混在している箇所があり、直接比較には注意が必要
  • Google AI Ultraサブスクリプションの価格はFinoutの報道に基づく。地域や時期により異なる可能性がある
シェア: ポスト はてブ

📎 出典・一次ソース

このニュースの解説動画も作っています

解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。

コメント

まだコメントはありません。最初のコメントを書いてみませんか?

AIについて聞きたいことはありますか?

質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。

質問箱を見る →

関連記事