ファインチューニングやり方・費用・いつ使うべきか【2026年入門】

GPT-4oの学習コストは約$25/100万トークン、GPT-4.1は約$3/100万トークンまで下がった。オープンソース7Bモデルなら$0.48/100万トークンと約50分の1。費用構造と判断基準を整理した。

3行まとめ

ファインチューニングの費用はモデルと手法で大きく異なる。GPT-4oは約$25/100万学習トークン、GPT-4.1は約$3/100万トークンと8倍以上の差がある

オープンソース7BモデルをTogether AIで学習すると$0.48/100万トークンで、GPT-4oの約50分の1のコスト

ハイパーパラメータ調整に3〜5回の反復が必要なため、1回の学習コストだけでなく反復分の予算を見込む必要がある

ファインチューニングとは

ファインチューニングは、学習済みのLLM（大規模言語モデル）を特定のタスクやドメインに合わせて追加学習させる手法だ。

プロンプトエンジニアリングやRAG（検索拡張生成）と比較した位置づけは以下の通り。

手法	概要	向いている場面
プロンプトエンジニアリング	指示文を工夫する	追加コストなしで試したいとき
RAG	外部データを検索して文脈に渡す	最新情報や社内文書を参照させたいとき
ファインチューニング	モデルの重みを更新する	出力のスタイル・形式・精度を根本から変えたいとき

RAGについてはRAGガイドを参照。

モデル別のファインチューニング費用

OpenAI API（クローズドモデル）

モデル	学習コスト（/100万トークン）	推論コスト（入力/出力）
GPT-4o	約$25	─
GPT-4.1	約$3	$3（入力）/ $12（出力）
GPT-4.1 Mini	─	$0.80（入力）/ $3.20（出力）

GPT-4.1は学習コストがGPT-4oの約8分の1に下がっている。ただし推論コスト（学習後に実際に使う際の費用）も含めた総コストで判断する必要がある。

料金の詳細はOpenAI APIガイドを参照。

オープンソースモデル

モデル・プラットフォーム	コスト
7Bモデル on Together AI	$0.48/100万トークン（GPT-4oの約50分の1）
Llama 3.1 70B + QLoRA on io.net	約$26 / 5万サンプル（同等GPT比で約25分の1）

オープンソースモデルはクローズドモデルと比べて大幅に安い。Llama 3.1 70BをQLoRA（量子化LoRA）でファインチューニングした場合、io.netの報告では5万サンプルの学習に約$26とされている。

ローカルLLMの導入方法はローカルLLMガイドを参照。

ファインチューニングの進め方

1. データの準備

学習データは「入力と期待する出力」のペアを用意する。フォーマットはモデルやプラットフォームによって異なるが、JSONL形式が一般的だ。

データの質がファインチューニングの成果を決める。少量でも高品質なデータのほうが、大量の低品質データより効果が出やすい。

2. 学習の実行

OpenAI APIの場合はダッシュボードまたはAPI経由でファインチューニングジョブを投入する。オープンソースモデルの場合はHugging Face Transformers、Axolotl、Unslothなどのツールを使う。

3. ハイパーパラメータ調整

ファインチューニングは一発で決まることは少ない。学習率・エポック数・バッチサイズなどを変えながら3〜5回の反復を見込んでおく。

つまり、予算は「1回の学習コスト × 3〜5倍」で計算するのが現実的だ。

4. 評価

学習後のモデルをテストデータで評価する。元のモデル（ファインチューニング前）と比較して、対象タスクでの精度が上がっているかを定量的に確認する。

いつファインチューニングすべきか

ファインチューニングを検討する前に、まずプロンプトエンジニアリングとRAGで対応できないか試す。それでも以下の条件に該当する場合にファインチューニングを検討する。

出力の形式・スタイルを厳密に制御したい（JSON出力の構造、専門用語の使い方など）
推論コストを下げたい（長いシステムプロンプトをモデルに焼き込むことで入力トークンを削減）
レイテンシを下げたい（RAGの検索ステップを省略）
ドメイン知識を注入したい（医療・法律・社内用語など）

逆に、最新情報の参照が必要な場合はRAGのほうが適している。ファインチューニングは学習データの時点で知識が固定されるためだ。

正直に書くと

費用の数字は各情報源からの引用で、時期やプランによって変動する。特にOpenAIの料金は頻繁に改定されるため、本記事の数字が現在も正確かは公式サイトでの確認が必要
「GPT-4oの約50分の1」「約25分の1」といった比率は、引用元の数字をもとにした概算。学習データ量や手法が異なる条件での比較であり、同一条件での厳密な比較ではない
QLoRAによるファインチューニングはフル・ファインチューニングと比べて精度が落ちる場合がある。コスト削減とのトレードオフが存在する
「3〜5回の反復」は一般的な目安として情報源に記載されていた数字であり、タスクによってはこれ以上必要になる場合もある
本記事はファインチューニングの入門的な概要であり、実際の実装にはモデルやプラットフォームごとの公式ドキュメントを参照する必要がある

出典・但し書き

料金は2026年6月時点の公開情報に基づく。APIの料金改定は事前通知なく行われることがあるため、最新料金は各サービスの公式ドキュメントで確認することを推奨する。

ファインチューニングやり方・費用・いつ使うべきか【2026年入門】

ファインチューニングとは