Llama 4 ローカルで動かす方法・性能・ライセンス【Meta 2026年】
Meta Llama 4 Scout(109Bパラメータ)とMaverick(400B)の性能・VRAM要件・ライセンス条件を整理。Ollamaやllama.cppでのローカル構築手順と、他のオープンモデルとのライセンス比較も解説する。
3行まとめ
- Llama 4 Scoutは109Bパラメータ(17Bアクティブ)のMoEモデルで、Q4量子化なら約25GBに収まりRTX 5090(32GB)1枚で動く
- Maverick(400B)はQ4でも約200GB必要で、個人のローカル環境にはほぼ載らない——クラウドGPUが現実的
- ライセンスは商用利用可だが、月間アクティブユーザー7億人超で別途許諾が必要、EU向けマルチモーダル利用に制限あり
Llama 4 Scout / Maverickの基本スペック
MetaはLlama 4 ScoutとMaverickを2025年4月5日にリリースした(CoderSera調べ)。どちらもMixture-of-Experts(MoE)設計で、テキストと画像の両方を入力できるネイティブマルチモーダルモデルだ。
| 項目 | Scout | Maverick |
|---|---|---|
| 総パラメータ数 | 109B | 400B |
| アクティブパラメータ | 17B | 17B |
| エキスパート数 | 16 | 128 |
| コンテキスト長 | 10Mトークン | 1Mトークン |
Scoutの10Mトークンコンテキストは、GPT-4oの128Kウィンドウの約78倍に相当する。ソフトウェアコードベース全体や、小説25冊分を1プロンプトに入力できる計算になる(CoderSera調べ)。
MaverickはLMSYS Chatbot ArenaでELO 1,417を記録し、GPT-4oやGemini 2.0 Flashを上回ったとされる。ただし、この初期スコアは「benchmaxxing」(ベンチマーク特化の最適化)の影響を指摘する声もある(CoderSera調べ)。
なお、2Tパラメータ級の「Behemoth」は2026年6月時点でも未公開のままだ。
ローカルで動かすためのハードウェア要件
VRAM要件はモデルサイズと量子化方式で大きく変わる(Compute Market、APXML調べ)。
Scout(109B)
| 量子化 | VRAM目安 | 構成例 |
|---|---|---|
| FP16 | 約218GB | H100 ×4 |
| INT4 | 約55GB | H100 ×1 |
| Q4_K_M | 約25GB | RTX 5090(32GB)×1 |
| Q8 | 約55GB | RTX 3090(24GB)×2〜3 |
RTX 5090(32GB)1枚でQ4量子化のScoutが載る。RTX 3090でもQ8量子化で動作するとの報告がある(BestGPUforLLM調べ)。
Maverick(400B)
| 量子化 | VRAM目安 | 構成例 |
|---|---|---|
| FP16 | 約800GB | H200 ×8 |
| INT4 | 約200GB | H100 ×4 |
Maverickは個人向けGPU1枚では動かない。クラウドGPU(H100で約$2.50/時間)が現実的な選択肢になる(Spheron調べ)。
Apple Silicon Mac
Apple Siliconの統合メモリは大容量モデルに有利だが、M4 Pro/Maxの36〜128GBでScoutのQ4(約25GB)は収まる。ただしGPUと比べると推論速度は遅く、目安として5〜15トークン/秒程度(CPU寄りの速度)になる。
Ollamaでの導入手順
関連記事でも紹介しているOllamaは、最も手軽なローカルLLM導入ツールだ。
# 1. Ollamaインストール(macOS)
curl -fsSL https://ollama.com/install.sh | sh
# 2. Llama 4 Scoutを取得・起動
ollama run llama4
# 3. APIサーバーとして利用(OpenAI互換)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "llama4", "messages": [{"role": "user", "content": "Hello"}]}'
OllamaはOpenAI互換APIを提供するため、既存のOpenAI SDKコードをほぼそのままローカルに向けられる。
llama.cppで動かす場合
より細かい制御が必要な場合はllama.cppを使う。GGUFフォーマットの量子化モデルをHugging Faceからダウンロードし、llama-serverコマンドで起動する流れになる。
# ビルド(CUDA対応)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
# 起動
./build/bin/llama-server -m llama-4-scout-q4_k_m.gguf --ctx-size 8192
ライセンス比較——他のオープンモデルとの違い
Llama 4は「Llama 4 Community License Agreement」の下で配布されている(Meta公式)。関連記事で紹介している他のオープンモデルとの比較は以下の通り。
| 項目 | Llama 4 | Mistral | Qwen 2.5 | Gemma 2 |
|---|---|---|---|---|
| 商用利用 | 可(7億MAU超は要別途許諾) | Apache 2.0(一部モデル) | Apache 2.0 | Google独自ライセンス |
| 改変・再配布 | 可("Built with Llama"表記必須) | 可 | 可 | 可(制限あり) |
| 出力で競合モデル訓練 | 禁止 | 制限なし | 制限なし | 禁止 |
| EU マルチモーダル | 制限あり | 制限なし | 制限なし | 制限なし |
注意すべき点は3つある。
- 7億MAUルール:月間アクティブユーザーが7億人を超えるサービスで使う場合、Metaから別途ライセンスを取得する必要がある。個人や中小規模の事業者にはほぼ関係ない
- 競合モデル訓練の禁止:Llama 4の出力を使って他のAIモデルを訓練することは禁止されている
- EUマルチモーダル制限:EU域内に本拠地を置く企業・個人は、Llama 4のマルチモーダル機能(画像入力)の利用権が付与されない。ただし、Llama 4を組み込んだ製品のエンドユーザーとしての利用は制限対象外
正直に書くと
- Scoutの10Mトークンコンテキストは仕様上の数値で、ローカル環境でフルに使うにはVRAM不足になる場合が多い。実用上は8K〜32K程度で使うケースが大半と思われる
- MaverickのLMArena ELOスコアはbenchmaxxing疑惑がある。実タスクでの性能は、ベンチマーク数値ほど他モデルと差がない可能性がある
- 量子化によるVRAM節約は品質低下とのトレードオフ。Q4量子化でどの程度の品質劣化があるかはタスクに依存する
- Apple Siliconでの推論速度は、NVIDIA GPU比で大幅に遅い。「動く」と「実用的な速度で動く」は別
出典・但し書き
本記事の情報は2026年6月時点のもの。ベンチマークスコアや量子化時のVRAM要件は、ソフトウェアの更新や測定条件により変動する。ライセンス条件の正確な内容はMeta公式のLlama 4 Community License Agreementを参照のこと。記載の価格・スペックは各出典元の報告に基づく。
📎 出典・一次ソース
このニュースの解説動画も作っています
解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。
コメント
まだコメントはありません。最初のコメントを書いてみませんか?
AIについて聞きたいことはありますか?
質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。
質問箱を見る →