2026年6月19日 金曜日
AI時短ラボ
モデル· 約9

Llama 4 ローカルで動かす方法・性能・ライセンス【Meta 2026年】

Meta Llama 4 Scout(109Bパラメータ)とMaverick(400B)の性能・VRAM要件・ライセンス条件を整理。Ollamaやllama.cppでのローカル構築手順と、他のオープンモデルとのライセンス比較も解説する。

3行まとめ

  1. Llama 4 Scoutは109Bパラメータ(17Bアクティブ)のMoEモデルで、Q4量子化なら約25GBに収まりRTX 5090(32GB)1枚で動く
  2. Maverick(400B)はQ4でも約200GB必要で、個人のローカル環境にはほぼ載らない——クラウドGPUが現実的
  3. ライセンスは商用利用可だが、月間アクティブユーザー7億人超で別途許諾が必要、EU向けマルチモーダル利用に制限あり

Llama 4 Scout / Maverickの基本スペック

MetaはLlama 4 ScoutとMaverickを2025年4月5日にリリースした(CoderSera調べ)。どちらもMixture-of-Experts(MoE)設計で、テキストと画像の両方を入力できるネイティブマルチモーダルモデルだ。

項目 Scout Maverick
総パラメータ数 109B 400B
アクティブパラメータ 17B 17B
エキスパート数 16 128
コンテキスト長 10Mトークン 1Mトークン

Scoutの10Mトークンコンテキストは、GPT-4oの128Kウィンドウの約78倍に相当する。ソフトウェアコードベース全体や、小説25冊分を1プロンプトに入力できる計算になる(CoderSera調べ)。

MaverickはLMSYS Chatbot ArenaでELO 1,417を記録し、GPT-4oやGemini 2.0 Flashを上回ったとされる。ただし、この初期スコアは「benchmaxxing」(ベンチマーク特化の最適化)の影響を指摘する声もある(CoderSera調べ)。

なお、2Tパラメータ級の「Behemoth」は2026年6月時点でも未公開のままだ。

ローカルで動かすためのハードウェア要件

VRAM要件はモデルサイズと量子化方式で大きく変わる(Compute Market、APXML調べ)。

Scout(109B)

量子化 VRAM目安 構成例
FP16 約218GB H100 ×4
INT4 約55GB H100 ×1
Q4_K_M 約25GB RTX 5090(32GB)×1
Q8 約55GB RTX 3090(24GB)×2〜3

RTX 5090(32GB)1枚でQ4量子化のScoutが載る。RTX 3090でもQ8量子化で動作するとの報告がある(BestGPUforLLM調べ)。

Maverick(400B)

量子化 VRAM目安 構成例
FP16 約800GB H200 ×8
INT4 約200GB H100 ×4

Maverickは個人向けGPU1枚では動かない。クラウドGPU(H100で約$2.50/時間)が現実的な選択肢になる(Spheron調べ)。

Apple Silicon Mac

Apple Siliconの統合メモリは大容量モデルに有利だが、M4 Pro/Maxの36〜128GBでScoutのQ4(約25GB)は収まる。ただしGPUと比べると推論速度は遅く、目安として5〜15トークン/秒程度(CPU寄りの速度)になる。

Ollamaでの導入手順

関連記事でも紹介しているOllamaは、最も手軽なローカルLLM導入ツールだ。

# 1. Ollamaインストール(macOS)
curl -fsSL https://ollama.com/install.sh | sh

# 2. Llama 4 Scoutを取得・起動
ollama run llama4

# 3. APIサーバーとして利用(OpenAI互換)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "llama4", "messages": [{"role": "user", "content": "Hello"}]}'

OllamaはOpenAI互換APIを提供するため、既存のOpenAI SDKコードをほぼそのままローカルに向けられる。

llama.cppで動かす場合

より細かい制御が必要な場合はllama.cppを使う。GGUFフォーマットの量子化モデルをHugging Faceからダウンロードし、llama-serverコマンドで起動する流れになる。

# ビルド(CUDA対応)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

# 起動
./build/bin/llama-server -m llama-4-scout-q4_k_m.gguf --ctx-size 8192

ライセンス比較——他のオープンモデルとの違い

Llama 4は「Llama 4 Community License Agreement」の下で配布されている(Meta公式)。関連記事で紹介している他のオープンモデルとの比較は以下の通り。

項目 Llama 4 Mistral Qwen 2.5 Gemma 2
商用利用 可(7億MAU超は要別途許諾) Apache 2.0(一部モデル) Apache 2.0 Google独自ライセンス
改変・再配布 可("Built with Llama"表記必須) 可(制限あり)
出力で競合モデル訓練 禁止 制限なし 制限なし 禁止
EU マルチモーダル 制限あり 制限なし 制限なし 制限なし

注意すべき点は3つある。

  1. 7億MAUルール:月間アクティブユーザーが7億人を超えるサービスで使う場合、Metaから別途ライセンスを取得する必要がある。個人や中小規模の事業者にはほぼ関係ない
  2. 競合モデル訓練の禁止:Llama 4の出力を使って他のAIモデルを訓練することは禁止されている
  3. EUマルチモーダル制限:EU域内に本拠地を置く企業・個人は、Llama 4のマルチモーダル機能(画像入力)の利用権が付与されない。ただし、Llama 4を組み込んだ製品のエンドユーザーとしての利用は制限対象外

正直に書くと

  • Scoutの10Mトークンコンテキストは仕様上の数値で、ローカル環境でフルに使うにはVRAM不足になる場合が多い。実用上は8K〜32K程度で使うケースが大半と思われる
  • MaverickのLMArena ELOスコアはbenchmaxxing疑惑がある。実タスクでの性能は、ベンチマーク数値ほど他モデルと差がない可能性がある
  • 量子化によるVRAM節約は品質低下とのトレードオフ。Q4量子化でどの程度の品質劣化があるかはタスクに依存する
  • Apple Siliconでの推論速度は、NVIDIA GPU比で大幅に遅い。「動く」と「実用的な速度で動く」は別

出典・但し書き

本記事の情報は2026年6月時点のもの。ベンチマークスコアや量子化時のVRAM要件は、ソフトウェアの更新や測定条件により変動する。ライセンス条件の正確な内容はMeta公式のLlama 4 Community License Agreementを参照のこと。記載の価格・スペックは各出典元の報告に基づく。

シェア: ポスト はてブ

📎 出典・一次ソース

このニュースの解説動画も作っています

解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。

コメント

まだコメントはありません。最初のコメントを書いてみませんか?

AIについて聞きたいことはありますか?

質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。

質問箱を見る →

関連記事