2026年6月19日 金曜日
AI時短ラボ
活用· 約12

AI文字起こし 日本語精度比較──Whisper・Notta・AiNote他【2026年】

Whisper・Notta・LINE WORKS AiNote・toruno・Otter.aiの日本語文字起こし精度を比較。同音異義語・敬語・専門用語への対応力、料金体系、用途別の選び方を整理した。

3行まとめ

  1. 日本語文字起こしの精度は、クリーン音声なら主要ツールで95〜99%に達するが、同音異義語・敬語・専門用語では差が出る
  2. Nottaは月120分まで無料、有料は月1,185円〜で業務利用に向く。AiNoteはLINE WORKS連携が強み。torunoはリコー提供で法人セキュリティに対応
  3. Whisperはオープンソースで無料だがセットアップが必要。用途・予算・セキュリティ要件で最適なツールは異なる

日本語文字起こしが難しい3つの理由

AIによる文字起こしは英語圏で先行して発展した。日本語に適用する場合、英語にはない固有の課題がある。

1. 同音異義語の多さ

「きかん」だけでも「期間」「機関」「気管」「帰還」「器官」など複数の候補がある。文脈から正しい漢字を推定する必要があり、音声認識モデルの言語モデル部分の性能が精度に直結する。

2. 敬語・謙譲語の複雑さ

ビジネス会議では「おっしゃっていただけますでしょうか」のような多重敬語が頻出する。話し言葉として崩れた敬語も多く、正確な書き起こしが難しい。

3. 専門用語・カタカナ語の混在

IT・医療・法律などの分野では、和製英語や略語(「エビデンス」「コンプラ」「DX」など)が日本語の文脈に混在する。辞書登録機能の有無が実用上の精度差を生む。


主要5ツールの概要比較

2026年6月時点で日本語文字起こしに対応する主要ツールを整理した。

ツール 提供元 エンジン 動作方式 日本語特化
Whisper OpenAI Whisper Large-v3 / Turbo ローカル or API 汎用(多言語対応)
Notta Langogo Technology 自社+Whisperベース クラウド 日本語チューニング済み
LINE WORKS AiNote LINE WORKS(旧CLOVA Note) 自社開発 クラウド 日本語ネイティブ対応
toruno リコー 自社開発 クラウド 日本語特化
Otter.ai Otter.ai Inc. 自社開発 クラウド 英語中心(日本語は限定)

(株式会社renue「AI文字起こしツール比較 2026年版」、SaaS比較Lab、各社公式情報をもとに作成)


日本語精度の実力比較

文字起こしの精度は音声品質(マイク、ノイズ、話者数)に大きく左右される。以下は、各ツールの公称値・レビュー報告をもとにした目安だ。

ツール クリーン音声(1対1) 会議音声(複数話者) 専門用語対応
Whisper Large-v3 95〜97%(WER 約5%) 85〜93% 辞書機能なし(後編集前提)
Notta 97〜99% 93〜97% ユーザー辞書あり
LINE WORKS AiNote 97〜99% 93〜97% 自動話者認識(2026年4月追加)
toruno 95〜98% 90〜95% チーム辞書機能あり
Otter.ai 85〜90%(日本語) 80〜85%(日本語) 英語辞書のみ

(Zenn「日本語文字起こしモデル徹底比較」、デジタル化の窓口、RecACE plus、各社レビュー報告をもとに作成。測定環境・音声条件によって結果は変動する)

Whisper:オープンソースの基準点

Whisper Large-v3は68万時間の多言語音声データで学習されたモデルで、日本語のWER(Word Error Rate)は約4.9%とされる(Zenn記事)。ただしこれは比較的クリーンな音声での値で、会議の雑音や複数話者の重なりがあると精度は下がる。

Whisperの強みは無料・オープンソースであること。GPU搭載のPCがあればローカルで動作し、音声データを外部に送信せずに処理できる。一方、辞書登録機能がないため、固有名詞や専門用語の誤認識は手動修正が必要になる。

Whisperの詳しい使い方・精度データは関連記事:Whisper文字起こしの使い方・精度・無料で使う方法を参照。

Notta:日本語チューニング済みのクラウドサービス

Nottaは日本語に最適化されたエンジンを搭載しており、クリーン音声での精度は98〜99%を公称する(生成AI総合研究所)。話者分離、AI要約、リアルタイム文字起こしに対応しており、インタビューや取材の書き起こしに強い。

ユーザー辞書機能があり、業界用語や社名を事前登録することで認識率を上げられる。

LINE WORKS AiNote:旧CLOVA Noteの後継

CLOVA Noteのベータ版は2025年7月に終了し、LINE WORKS AiNoteとして正式サービスに移行した(LINE WORKS公式)。LINEの自然言語処理技術をベースにした自社開発エンジンを使用しており、日本語・韓国語の認識に強い。

2026年4月のアップデートで自動話者認識機能が追加され、会議参加者の声を自動で識別・ラベル付けできるようになった(LINE WORKS公式)。LINE WORKSとの連携が前提のため、すでにLINE WORKSを導入している企業にとっては追加コストを抑えやすい。

toruno:リコーが提供する法人向けサービス

torunoはリコーが開発・提供する文字起こしサービスで、対面会議・Web会議の両方に対応する(plaud.ai)。チーム辞書機能により、社内用語や業界特有の略語を登録して認識精度を高められる。

2025年に追加された「toruno ビジネス AI要約プラン」では、Microsoft Azure OpenAI Serviceと連携し、文脈を理解した自然な日本語での会議要約を生成する(デジタル化の窓口)。2026年2月には日本語以外の文字起こし機能もリリースされた。

法人向けのセキュリティ基準を満たしているため、金融・医療・公官庁など情報管理が厳格な組織での導入実績がある。

Otter.ai:英語に強いが日本語は発展途上

Otter.aiは英語の会議文字起こしでは90〜95%の精度とされるが、日本語対応は2026年時点でも限定的だ(aipicks)。英語と日本語が混在する会議で補助的に使うケースはあるが、日本語単体の文字起こし用途としては他ツールに劣る。


料金プラン比較

ツール 無料プラン 有料プラン(最安) 有料プランの文字起こし上限
Whisper(ローカル) 完全無料(GPU必要) 無制限
Whisper API $0.006/分(約0.9円) 従量制
Notta 月120分 月1,185円(年払い) 月1,800分(30時間)
LINE WORKS AiNote なし(LINE WORKS契約が前提) 追加100分+AI要約2回で月360円〜 プランにより異なる
toruno なし 月9,000円〜(ビジネスプラン) プランにより異なる
Otter.ai 月300分(英語) 月$16.99(年払い) 月1,200分

(生成AI総合研究所、LINE WORKS公式、toruno公式ヘルプ、各社公式情報をもとに作成。2026年6月時点の情報)


用途別おすすめの選び方

個人・フリーランスの取材やメモ

Notta(無料プラン) から始めるのが現実的だ。月120分の無料枠があり、スマホアプリでその場で録音・文字起こしができる。月30時間以上使う場合はプレミアムプラン(年払いで月1,185円)に移行する。

コスト最優先で技術的なセットアップに抵抗がなければ、Whisperのローカル実行が最も安い(無料)。ただしPython環境の構築とGPU搭載PCが必要になる。

企業の会議議事録

セキュリティ要件によって選択肢が変わる。

  • LINE WORKSを導入済み → AiNoteが追加コストを抑えやすい。話者認識機能で「誰が何を言ったか」を自動記録できる
  • 情報管理が厳格(金融・医療・官公庁) → torunoはリコーの法人向けセキュリティ基準に準拠しており、オンプレミスに近い運用が可能
  • 汎用的に使いたい → Nottaのビジネスプランが機能・価格のバランスが取りやすい

音声データを外部に出せない場合

Whisperのローカル実行一択だ。音声データがインターネットに送信されないため、機密性の高い音声(法務相談、人事面談など)にも対応できる。ただし辞書登録機能がないため、後編集の工数は増える。

英語混じりの会議

日英混在の会議では、Whisperの多言語対応が有利に働く場合がある。Nottaも多言語対応しているが、言語切り替えの精度はツールや音声品質によって変動する。Otter.aiは英語部分の精度は高いが、日本語部分で認識率が落ちる。


精度を上げる実践テクニック

ツール選びと並行して、以下の工夫で認識精度を改善できる。

1. マイクの選定

内蔵マイクよりも外付けの指向性マイクを使うと、ノイズが減り精度が上がる。会議室では集音マイク(Jabra Speak、Ankerなど)の導入が有効。torunoは「精度95%超を実現するマイク選び」をガイドラインとして公開している(デジタル化の窓口)。

2. 辞書登録の活用

Notta、torunoには辞書登録機能がある。会議前に参加者名・プロジェクト名・専門用語を登録しておくと、固有名詞の誤認識が減る。Whisperには辞書機能がないため、--initial_promptオプションで関連キーワードを渡す方法が代替手段になる。

3. 話者の工夫

「一人ずつ話す」「マイクに近づく」「ゆっくり話す」といった基本的な話し方の工夫が、どのツールでも精度向上につながる。特にリモート会議では、イヤホンマイクの使用を参加者に推奨するだけで認識率が改善する。


まとめ:日本語文字起こしツール選定のチェックリスト

判断基準 確認事項
予算 無料で始めたい → Notta無料 or Whisperローカル
精度優先 日本語特化エンジン → Notta / AiNote
セキュリティ データを外部に出せない → Whisperローカル / toruno法人プラン
既存ツール連携 LINE WORKS導入済み → AiNote / Microsoft 365中心 → toruno
専門用語が多い 辞書登録機能あり → Notta / toruno
英語混在 多言語対応 → Whisper / Notta

日本語の文字起こしは2026年時点で実用レベルに達しているが、「どのツールでも同じ」ではない。用途・予算・セキュリティ要件に応じて選択肢を絞り、無料プランやトライアルで自社の音声環境での精度を確認してから導入判断することを推奨する。

シェア: ポスト はてブ

📎 出典・一次ソース

このニュースの解説動画も作っています

解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。

コメント

まだコメントはありません。最初のコメントを書いてみませんか?

AIについて聞きたいことはありますか?

質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。

質問箱を見る →

関連記事