Llama 4 ローカルで動かす方法・性能・ライセンス【Meta 2026年】

Meta Llama 4 Scout（109Bパラメータ）とMaverick（400B）の性能・VRAM要件・ライセンス条件を整理。Ollamaやllama.cppでのローカル構築手順と、他のオープンモデルとのライセンス比較も解説する。

3行まとめ

Llama 4 Scoutは109Bパラメータ（17Bアクティブ）のMoEモデルで、Q4量子化なら約25GBに収まりRTX 5090（32GB）1枚で動く

Maverick（400B）はQ4でも約200GB必要で、個人のローカル環境にはほぼ載らない——クラウドGPUが現実的

ライセンスは商用利用可だが、月間アクティブユーザー7億人超で別途許諾が必要、EU向けマルチモーダル利用に制限あり

Llama 4 Scout / Maverickの基本スペック

MetaはLlama 4 ScoutとMaverickを2025年4月5日にリリースした（CoderSera調べ）。どちらもMixture-of-Experts（MoE）設計で、テキストと画像の両方を入力できるネイティブマルチモーダルモデルだ。

項目	Scout	Maverick
総パラメータ数	109B	400B
アクティブパラメータ	17B	17B
エキスパート数	16	128
コンテキスト長	10Mトークン	1Mトークン

Scoutの10Mトークンコンテキストは、GPT-4oの128Kウィンドウの約78倍に相当する。ソフトウェアコードベース全体や、小説25冊分を1プロンプトに入力できる計算になる（CoderSera調べ）。

MaverickはLMSYS Chatbot ArenaでELO 1,417を記録し、GPT-4oやGemini 2.0 Flashを上回ったとされる。ただし、この初期スコアは「benchmaxxing」（ベンチマーク特化の最適化）の影響を指摘する声もある（CoderSera調べ）。

なお、2Tパラメータ級の「Behemoth」は2026年6月時点でも未公開のままだ。

ローカルで動かすためのハードウェア要件

VRAM要件はモデルサイズと量子化方式で大きく変わる（Compute Market、APXML調べ）。

Scout（109B）

量子化	VRAM目安	構成例
FP16	約218GB	H100 ×4
INT4	約55GB	H100 ×1
Q4_K_M	約25GB	RTX 5090（32GB）×1
Q8	約55GB	RTX 3090（24GB）×2〜3

RTX 5090（32GB）1枚でQ4量子化のScoutが載る。RTX 3090でもQ8量子化で動作するとの報告がある（BestGPUforLLM調べ）。

Maverick（400B）

量子化	VRAM目安	構成例
FP16	約800GB	H200 ×8
INT4	約200GB	H100 ×4

Maverickは個人向けGPU1枚では動かない。クラウドGPU（H100で約$2.50/時間）が現実的な選択肢になる（Spheron調べ）。

Apple Silicon Mac

Apple Siliconの統合メモリは大容量モデルに有利だが、M4 Pro/Maxの36〜128GBでScoutのQ4（約25GB）は収まる。ただしGPUと比べると推論速度は遅く、目安として5〜15トークン/秒程度（CPU寄りの速度）になる。

Ollamaでの導入手順

関連記事でも紹介しているOllamaは、最も手軽なローカルLLM導入ツールだ。

# 1. Ollamaインストール（macOS）
curl -fsSL https://ollama.com/install.sh | sh

# 2. Llama 4 Scoutを取得・起動
ollama run llama4

# 3. APIサーバーとして利用（OpenAI互換）
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "llama4", "messages": [{"role": "user", "content": "Hello"}]}'

OllamaはOpenAI互換APIを提供するため、既存のOpenAI SDKコードをほぼそのままローカルに向けられる。

llama.cppで動かす場合

より細かい制御が必要な場合はllama.cppを使う。GGUFフォーマットの量子化モデルをHugging Faceからダウンロードし、llama-serverコマンドで起動する流れになる。

# ビルド（CUDA対応）
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

# 起動
./build/bin/llama-server -m llama-4-scout-q4_k_m.gguf --ctx-size 8192

ライセンス比較——他のオープンモデルとの違い

Llama 4は「Llama 4 Community License Agreement」の下で配布されている（Meta公式）。関連記事で紹介している他のオープンモデルとの比較は以下の通り。

項目	Llama 4	Mistral	Qwen 2.5	Gemma 2
商用利用	可（7億MAU超は要別途許諾）	Apache 2.0（一部モデル）	Apache 2.0	Google独自ライセンス
改変・再配布	可（"Built with Llama"表記必須）	可	可	可（制限あり）
出力で競合モデル訓練	禁止	制限なし	制限なし	禁止
EU マルチモーダル	制限あり	制限なし	制限なし	制限なし

注意すべき点は3つある。

7億MAUルール：月間アクティブユーザーが7億人を超えるサービスで使う場合、Metaから別途ライセンスを取得する必要がある。個人や中小規模の事業者にはほぼ関係ない
競合モデル訓練の禁止：Llama 4の出力を使って他のAIモデルを訓練することは禁止されている
EUマルチモーダル制限：EU域内に本拠地を置く企業・個人は、Llama 4のマルチモーダル機能（画像入力）の利用権が付与されない。ただし、Llama 4を組み込んだ製品のエンドユーザーとしての利用は制限対象外

正直に書くと

Scoutの10Mトークンコンテキストは仕様上の数値で、ローカル環境でフルに使うにはVRAM不足になる場合が多い。実用上は8K〜32K程度で使うケースが大半と思われる
MaverickのLMArena ELOスコアはbenchmaxxing疑惑がある。実タスクでの性能は、ベンチマーク数値ほど他モデルと差がない可能性がある
量子化によるVRAM節約は品質低下とのトレードオフ。Q4量子化でどの程度の品質劣化があるかはタスクに依存する
Apple Siliconでの推論速度は、NVIDIA GPU比で大幅に遅い。「動く」と「実用的な速度で動く」は別

出典・但し書き

本記事の情報は2026年6月時点のもの。ベンチマークスコアや量子化時のVRAM要件は、ソフトウェアの更新や測定条件により変動する。ライセンス条件の正確な内容はMeta公式のLlama 4 Community License Agreementを参照のこと。記載の価格・スペックは各出典元の報告に基づく。

Llama 4 ローカルで動かす方法・性能・ライセンス【Meta 2026年】

Llama 4 Scout / Maverickの基本スペック

ローカルで動かすためのハードウェア要件

Scout（109B）

Maverick（400B）

Apple Silicon Mac

Ollamaでの導入手順

llama.cppで動かす場合

ライセンス比較——他のオープンモデルとの違い

正直に書くと

出典・但し書き

📎 出典・一次ソース

このニュースの解説動画も作っています

コメント

AIについて聞きたいことはありますか？

関連記事

GPT-5はいつ出た？GPT-5.5までの性能・料金まとめ【2026年版】

Claude 3.5/4 料金・性能比較・ChatGPTとの違い【2026年版】

中国Zhipu AIがGLM-5.2を公開──100万トークン対応・MIT重み公開予定のコーディング特化モデル