オープンソースAI vs クローズドAI──メリット・デメリット比較【2026年】
Llama 4やDeepSeek V4などオープンウェイトモデルと、GPT-5.5やClaude Opus 4などクローズドモデルを、コスト・プライバシー・カスタマイズ性・性能・安全性・サポートの6軸で比較した。
3行まとめ
- オープンウェイトモデル(Llama 4、DeepSeek V4、Qwen 3)はクローズドモデルとの性能差を数ポイントまで縮め、コストは10分の1以下になっている
- クローズドモデル(GPT-5.5、Claude Opus 4、Gemini 3)は複雑な推論・マルチモーダル・エンタープライズサポートで依然として優位
- 「オープンソース」と呼ばれるモデルの大半はライセンス制限があり、OSI定義の厳密なオープンソースではない点に注意が必要
前提:「オープンソースAI」は正確ではない
まず用語の整理が必要だ。
2024年10月にOpen Source Initiative(OSI)が公開した「Open Source AI Definition(OSAID)1.0」によると、オープンソースAIの条件はモデルの重み・学習データ・コードのすべてが自由に利用可能であることだ。
この定義を満たすモデルはほぼ存在しない。Llama 4、DeepSeek V4、Qwen 3、Mistral Large 3はいずれも重みは公開するが学習データは非公開であり、正確には「オープンウェイト」モデルだ(出典)。
本記事では一般的な通称に従い「オープンソースAI」と表記するが、この区別は知っておく価値がある。
主要モデルの一覧
オープンウェイト陣営
| モデル | 開発元 | パラメータ | 特徴 |
|---|---|---|---|
| Llama 4 Maverick | Meta | 400B(MoE) | 英語圏での汎用性が高い。700M MAU超の企業は別途ライセンスが必要 |
| DeepSeek V4 Pro | DeepSeek | 671B(MoE、37Bアクティブ) | SWE-bench Verified 80.6%。APIコストがクローズドの約1/10〜1/30 |
| Qwen 3 | Alibaba | 最大235B | 201言語対応。多言語・長文脈RAGに強い |
| Mistral Large 3 | Mistral AI | 非公開 | EU域内のデータ主権を重視。80言語以上対応 |
各モデルの詳細はオープンウェイトモデル上半期まとめを参照。
クローズド陣営
| モデル | 開発元 | 特徴 |
|---|---|---|
| GPT-5.5 | OpenAI | マルチモーダル統合。API料金は$1.75/$14.00(入力/出力・1Mトークンあたり) |
| Claude Opus 4 | Anthropic | 複雑な推論・コーディングに強い。Constitutional AIによる安全性設計 |
| Gemini 3 Pro | Google検索・Workspace統合。長文脈処理 |
6軸で比較する
1. コスト
コスト差はオープンウェイト陣営の最大の強みだ。
| 項目 | オープンウェイト | クローズド |
|---|---|---|
| API利用(1Mトークン出力) | $0.59〜$0.79(Groq経由Llama 3.3 70B) | $1.50〜$14.00(GPT-5系) |
| セルフホスト | 約$0.15/1Mトークン(Llama 4 70B・A100) | 不可 |
| 初期コスト | GPU調達・運用が必要 | ゼロ(API登録のみ) |
セルフホスト時のコスト削減率は**60〜80%**と報告されている(出典)。ただし、これはGPU調達・電力・運用人件費を除いた推論コストのみの比較であり、小規模利用ではクローズドAPIのほうが総コストは安くなる場合が多い。
2. プライバシー・データ主権
| 項目 | オープンウェイト | クローズド |
|---|---|---|
| データの外部送信 | セルフホストなら不要 | API利用時は送信が必要 |
| データ利用ポリシー | 自社で完全管理 | 各社のポリシーに依存 |
| 規制対応(GDPR等) | 自社インフラで対応可 | プロバイダのコンプラに依存 |
医療・法務・金融など機密データを扱う業種では、データを外部に出さずに済むオープンウェイトモデルのセルフホストが選ばれる傾向がある。Mistral Large 3はEU域内のデータ主権を前面に打ち出しており、欧州企業での採用が進んでいる(出典)。
3. カスタマイズ性
| 項目 | オープンウェイト | クローズド |
|---|---|---|
| ファインチューニング | 自由に実行可能 | 限定的(一部モデルのみ) |
| モデル改変 | 重みの編集・蒸留が可能 | 不可 |
| 推論最適化 | 量子化・プルーニング等を自由に適用 | 不可 |
ファインチューニングはオープンウェイトモデルの決定的な強みだ。自社データで追加学習し、特定タスクに特化させることで、汎用モデルでは到達しない精度を実現できる。
ローカルでのLLM運用方法はローカルLLMガイドで解説している。Llama 4のセットアップ手順はLlama 4ローカル構築ガイドを参照。
4. 性能(ベンチマーク)
2026年6月時点のベンチマークスコア(報道ベース):
| ベンチマーク | オープンウェイト最高 | クローズド最高 |
|---|---|---|
| SWE-bench Verified | DeepSeek V4 Pro: 80.6% | Claude Opus 4: 77.2%以上 |
| 複雑な推論(CRE) | クローズドより10〜25%低い | GPT-5.5・Claude Opus 4がリード |
| コーディング | Qwen 3が高スコア | Claude系が上位 |
注意点がいくつかある。
- SWE-benchのスコアは各社の自己申告を含み、評価条件が統一されていない場合がある
- 「複雑な推論」のベンチマークは定義や範囲が報告元によって異なる
- ベンチマークのスコアと実用時の体感は必ずしも一致しない
総合的には、汎用的な推論・マルチモーダル・長期的な対話ではクローズドモデルが優位、**特定タスクへの特化(ファインチューニング後)**ではオープンウェイトが逆転する場合がある。
5. 安全性・ガードレール
| 項目 | オープンウェイト | クローズド |
|---|---|---|
| 安全性フィルタ | 自社で実装が必要 | プロバイダが組み込み済み |
| 悪用リスク | 重みが公開されており制御困難 | APIを通じた利用制限が可能 |
| 監査・透明性 | コード・重みを直接検証可能 | ブラックボックス |
ここにはトレードオフがある。クローズドモデルは安全性フィルタが組み込まれているが、その判断基準はブラックボックスだ。オープンウェイトモデルはコードと重みを直接検証できるが、悪用者がフィルタを除去することも技術的には可能になる。
6. サポート・運用負荷
| 項目 | オープンウェイト | クローズド |
|---|---|---|
| 公式サポート | コミュニティベース | エンタープライズ契約でSLA付き |
| 運用負荷 | インフラ管理が必要 | API呼び出しのみ |
| アップデート | 手動で適用 | プロバイダが自動適用 |
技術チームを持たない中小企業や個人にとって、クローズドAPIの**「登録すればすぐ使える」**手軽さは大きなメリットだ。一方、大規模組織で専任のMLOpsチームがいる場合は、オープンウェイトのセルフホストが長期的にコスト効率が高くなる。
ライセンスの落とし穴
オープンウェイトモデルは「自由に使える」と思われがちだが、実際にはライセンス制限がある。
| モデル | 制限 |
|---|---|
| Llama 4 | 月間7億ユーザー超の企業は別途商用ライセンスが必要。EUでは一部機能(Vision等)が利用不可 |
| DeepSeek V4 | 比較的自由だが、中国の法規制下にある点を考慮する必要がある |
| Qwen 3 | Apache 2.0ライセンスで商用利用可。比較的制限が少ない |
| Mistral Large 3 | 商用利用可。EU規制への適合を重視 |
Llama 4のライセンスは「700M MAU超の企業はMetaに別途申請」という条件があり、大手プラットフォーム企業にとっては実質的な制約になる(出典)。
モデルの探し方・取得方法はHugging Faceガイドを参照。
どちらを選ぶべきか
| 条件 | 推奨 |
|---|---|
| 機密データを扱う | オープンウェイト(セルフホスト) |
| 特定タスクに特化させたい | オープンウェイト(ファインチューニング) |
| 大量リクエスト(数百万/日) | オープンウェイト(コスト優位) |
| 技術チームがいない | クローズドAPI |
| すぐに使い始めたい | クローズドAPI |
| 最先端の推論性能が必要 | クローズド(ただし差は縮小中) |
| マルチモーダル統合が必要 | クローズド(現時点で成熟度が高い) |
実際には二者択一ではなく、用途によって使い分けるのが現実的だ。社内の機密分析にはセルフホストのオープンウェイトモデル、顧客向けチャットボットにはクローズドAPIというハイブリッド構成を採る企業は増えている。
正直に書くと
- ベンチマークのスコアは各社の自己申告や報道ベースを含み、本記事では独自検証していない。評価条件・データセットが異なる数値を並べて比較している限界がある
- コスト比較の数値は推論コストのみであり、GPU調達・運用・人件費を含む総保有コスト(TCO)は環境によって大きく変わる
- 「オープンソースAI」と「オープンウェイトモデル」の区別は本記事で触れたが、業界全体で用語が統一されていない
- 筆者はClaudeを日常的に使用しており、クローズドモデル側の評価が偏っている可能性がある
- 中国発モデル(DeepSeek、Qwen)の利用については、地政学的リスクやデータ規制の観点から追加の検討が必要な場合がある
出典・但し書き
- Let's Data Science — Open Source vs Closed LLMs: The 2026 Decision Framework
- MorphLLM — DeepSeek V4: 1.6T MoE, 1M Context
- CoderSera — Llama 4 Guide: Scout, Maverick, Behemoth
- MindStudio — Open-Source vs Closed-Source AI Models
- AI Magicx — Qwen 3.5 vs Llama vs Mistral
- Medium — Navigating the AI Licensing Labyrinth
モデルの仕様・料金・ベンチマークスコアは2026年6月時点の公開情報に基づく。各モデルとも頻繁にアップデートされるため、最新情報は公式サイトで確認することを推奨する。
📎 出典・一次ソース
- Open Source vs Closed LLMs: The 2026 Decision Framework — Let's Data Science ↗
- DeepSeek V4: 1.6T MoE, 1M Context — MorphLLM ↗
- Llama 4 Guide: Scout, Maverick, Behemoth — CoderSera ↗
- Open-Source vs Closed-Source AI Models — MindStudio ↗
- Qwen 3.5 vs Llama vs Mistral — AI Magicx ↗
- Navigating the AI Licensing Labyrinth — Medium ↗
このニュースの解説動画も作っています
解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。
コメント
まだコメントはありません。最初のコメントを書いてみませんか?
AIについて聞きたいことはありますか?
質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。
質問箱を見る →