2026年6月25日 木曜日
AI時短ラボ
original· 約12

JTLスコア v3──24モデルを「性能・体感・コスパ」3軸で本気比較した(2026年6月版)

ベンチマーク12種のカテゴリ階層平均(θ)、Arena投票のWLS残差(UPR)、対数コスト回帰の残差(CE)を等ウェイトで合成した独自複合指標「JTLスコア v3」の全ランキングと設計思想。GPT-5.5が8位になる構造的理由の分析付き。

AI時短ラボが独自に設計した複合指標「JTLスコア(時短ラボスコア)」v3の全データと設計思想を公開する。

  • 24モデルを「θ(ベンチマーク性能)」「UPR(体感補正)」「CE(コスパ)」の3軸で評価
  • v3ではカテゴリ階層平均、WLS回帰(CI逆分散重み)、coverage shrinkageを導入
  • 1位 Fable 5、2位 Opus 4.6、3位 Opus 4.7。GPT-5.5はベンチ4位だが総合8位

なぜ作ったか

既存のAIモデル比較には3つの穴がある。

1. ベンチマークだけで比較する。 ベンチマークスコアが高いモデルが実際に使いやすいとは限らない。Opus 4.8はベンチ2位だが、Arena投票(600万票超)ではOpus 4.6の方が高く評価されている。

2. 体感だけで比較する。 「使ってみた感想」は個人のユースケースに依存する。コーディング中心の人とライティング中心の人で評価が割れる。

3. 価格を無視する。 $50のモデルと$1.6のモデルを同列に並べても、実務の選択基準にならない。

JTLスコアはこの3つを1つの指標にまとめる試み。

3軸の設計

θ(シータ)── ベンチマーク性能

12種のベンチマークを4カテゴリに分類し、カテゴリ内でz-score平均→カテゴリ間で平均する「階層平均」を採用。

カテゴリ ベンチマーク
reasoning GPQA, HLE, MMMU-Pro
coding SWE-Bench Pro, FrontierSWE, LiveBench
agents MCP-Atlas, Terminal-Bench 2, Finance-Agent v2, Legal-Agent Benchmark
knowledge GDPVal-AA, BrowseComp

なぜ階層平均か。 単純平均だとagents(4種)がreasoning(3種)より影響力が大きくなる。カテゴリ内で先に平均してからカテゴリ間で平均することで、4分野を等しく扱う。

shrinkage補正。 カバレッジが6ベンチ未満のモデル(GLM 5.2、Gemini 3 Pro、GPT-5.5 Proなど)は、θを全体平均に向けて引き寄せる補正をかけている(★マーク)。データが少ないモデルのスコアを過大評価しないための処理。

UPR(User Perception Residual)── 体感補正

LMSYS Chatbot Arenaの投票Eloを使い、「ベンチ性能(θ)から予測されるEloとの差」を計算する。

回帰式: Elo = 1475.6 + 18.4 × θ(WLS、n=18、R²=0.354)

重み付けにはArena投票の95%信頼区間(CI)の逆分散を使用。投票数が多く信頼区間が狭いモデルほど回帰への影響力が大きくなる。

UPRがプラス → ベンチ以上に人間が高く評価している UPRがマイナス → ベンチほどには人間が評価していない

CE(Cost Efficiency)── コスパ

「この価格帯なら性能はこのくらい」という対数コスト回帰の残差を0-1正規化したもの。高いほど「価格の割に性能が高い」。

合成

θ・UPR・CEをそれぞれ標準化し、等ウェイト(1/3ずつ)で平均。

全24モデル ランキング

順位 モデル JTL θ(性能) UPR(体感) CE(コスパ) $/MTok
1 Fable 5 +1.74 +1.86 -0.4 1.00 $50
2 Opus 4.6 +0.73 +0.27 +11.2 0.40 $25
3 Opus 4.7 +0.69 +0.65 +2.7 0.57 $25
4 Opus 4.8 +0.57 +1.00 -6.6 0.72 $25
5 GLM 5.2 ★ +0.57 +0.31 -2.1 0.78 $2
6 Qwen 3.7 Max +0.48 +0.12 -0.6 0.73 $1.6
7 Gemini 3.5 Flash +0.47 +0.27 -1.6 0.71 $3
8 GPT-5.5 +0.24 +0.53 -2.2 0.49 $30
9 GLM 5.1 +0.22 -0.23 +1.4 0.59 $1.5
10 Gemini 3.1 Pro +0.18 -0.03 +6.6 0.30 $20
11 GPT-5.4 +0.12 +0.25 -1.4 0.47 $15
12 Gemini 3 Pro ★ +0.11 -0.16 +8.1 0.24 $20
13 Gemini 3 Flash +0.02 -0.56 +4.6 0.44 $1.5
14 GPT-5.5 Pro ★ -0.08 +0.26 +0.3 0.27 $60
15 Sonnet 4.6 -0.11 -0.03 +1.5 0.33 $15
16 DeepSeek V4 Flash -0.15 -0.52 --- 0.62 $0.7
17 DeepSeek V4 Pro -0.17 +0.01 -5.7 0.52 $2.19
18 Kimi K2.5 -0.31 -0.41 --- 0.55 $2
19 MiniMax M3 -0.55 -0.34 -5.2 0.38 $4
20 GPT-5.4 Mini -0.62 -0.71 -1.3 0.41 $2.4
21 Grok 4.1 Think -0.77 --- -3.3 0.34 $30
22 GPT-5.4 Nano -1.18 -1.42 --- 0.38 $0.6
23 Grok 4 Fast -1.49 -1.03 --- 0.14 $15
24 Haiku 4.5 -2.40 -2.02 --- 0.00 $5

★ = ベンチデータ6種未満のためshrinkage補正済み --- = Arena Eloが取得できなかったため、UPRなしの2成分で算出

GPT-5.5が8位になる構造的理由

「ベンチ4位なのに総合8位は低すぎでは?」という疑問に回答する。

GPT-5.5の3軸内訳:

  • θ = +0.53(4位)← 強い
  • UPR = -2.2(マイナス)
  • CE = 0.49(中程度)

θは確かに強い。 12ベンチ全カバーで、reasoning(+0.81)、coding(+0.79)、agents(+0.68)は上位。knowledgeカテゴリ(-0.17)だけがマイナス。

UPRがマイナス。 Arena Elo = 1481で、θから予測されるElo(約1485)をわずかに下回る。ベンチ性能の割にArena投票での評価がやや低い。ただしv2(UPR = -9.4)からv3(-2.2)でCI重み付けにより改善している。

CEが足を引っ張る。 $30でθ +0.53は「価格から予測される性能にほぼ一致」するため、コスパのボーナスが出ない。比較すると、Opus 4.6は$25でθ +0.27だがUPR +11.2で大幅に加点され2位。Qwen 3.7 Maxは$1.6でθ +0.12だがCE 0.73で加点され6位。

仮にCEが違ったら:

  • CE = 0.70(Opus 4.8並)→ 5〜6位相当
  • CE = 0.90(格安モデル並)→ 4〜5位相当

CEが順位を押し下げている構造が明確に見える。

「性能重視で予算を気にしない」ユーザーにとっては、GPT-5.5はθ 4位の実力通り。 JTLスコアは3軸の総合指標であり、用途・予算によってモデルの評価は変わる。

この分析の限界

正直に書くと、AIモデルの総合評価は自然科学と違って「誰もが納得する正解」が出せる領域ではない。ベンチマークの選び方、重みの付け方、価格の扱い方、Arenaの投票バイアス──どこをどういじっても何かしらの要素に引っ張られる。JTLスコアも例外ではなく、等ウェイトという設計判断ひとつで順位は変わる。

その上で、「GPT-5.5が体感より低いから重みを調整して上げる」ということは意図的にやっていない。体感に合うように後からパラメータをいじるのは、分析として一番やってはいけないことだと考えている。先に設計を決めて、出た結果をそのまま出す。「自分の感覚と違う結果が出た時にいじらない」が、このスコアで守っている原則。

成分間の相関

θ UPR CE
θ 1.000 -0.018 0.669
UPR -0.018 1.000 -0.319
CE 0.669 -0.319 1.000

θ-UPRの相関はほぼゼロ(-0.018)で、ベンチ性能と体感評価が独立に情報を持っていることを示す。θ-CE相関が0.669と高いのは構造的な理由で、高価格モデルは性能も高い傾向があるため。

v2からの改善点

  1. ベンチマーク: 14→12種(swe-bench-verified, toolathlon削除──既存ベンチとr > 0.93で二重計上になるため)
  2. θ: z-score単純平均 → カテゴリ階層平均(reasoning / coding / agents / knowledge)
  3. UPR: OLS → WLS(Arena CI逆分散重み)+ CI shrinkage
  4. θ: coverage 6ベンチ未満に shrinkage 適用
  5. self-reported率: 67%(除外せず、率を開示)

データソース・計算コード

  • ベンチマークデータ: llm-stats.com(2026年6月時点)
  • Arena投票データ: lmarena.ai(2026年6月時点)
  • API料金: 各社公式ドキュメント(2026年6月時点)
  • self-reported率: 全651エントリ中433件(67%)が開発元自己申告値
  • 計算コード: Python(numpy)約250行

出典・但し書き

  • JTLスコアはAI時短ラボが独自に設計した指標であり、学術的な査読を経たものではない。
  • ベンチマークデータの67%は開発元の自己申告値に基づく。第三者による独立追試データベースは2026年6月時点で存在しない。
  • Arena投票はanonymous blind testだが、投票者の偏り(プロンプトの種類・言語・難易度)は制御されていない。
  • 料金は2026年6月時点の各社公式API価格。レート制限・バッチ割引は考慮していない。
  • 動画版: YouTubeで解説動画を公開予定。
シェア: ポスト はてブ

📎 出典・一次ソース

このニュースの解説動画も作っています

解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。

コメント

まだコメントはありません。最初のコメントを書いてみませんか?

AIについて聞きたいことはありますか?

質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。

質問箱を見る →

関連記事