Japanese ASR Benchmark Report

五模型全量測試 · Japanese-ASR style · NVIDIA L4 · 2026-06-07

總覽

這次完整跑完五個日語 ASR 模型,每個模型覆蓋三個測試集,共 14,746 條音訊;總轉錄量 73,730 條,錯誤數為 0。 主要排名使用三個資料集 normalized CER 的平均值,數值越低代表越接近參考文本。

總轉錄條目
73,730
5 models × 14,746 clips
錯誤條目
0
逐樣本結果 error 欄位全空
單模型音訊時長
21.85h
三資料集合計 78,673.46 秒
最快模型
64.58x
Parakeet 平均速度
最低 CER
6.41
Cohere normalized CER

結論

實時直播首選
Parakeet TDT-CTC 0.6B JA

準確度第二,但速度第一,p95 延遲只有 0.093s。對直播即時字幕來說,這是最穩的主力候選。

準確度優先
Cohere Transcribe 03-2026

平均 CER 最低,CommonVoice 與 ReazonSpeech 都是第一。延遲仍可用,但速度與 gated 部署條件要納入系統設計。

穩定基線
faster-whisper large-v3-turbo

生態成熟,速度和準確度都在中間。若要做 fallback 或跨環境部署,它仍是很好維護的基準模型。

不建議主力
Qwen / Nemotron

Qwen 在 ReazonSpeech 明顯掉分且延遲較高;Nemotron 在這套測試下 CER 偏高,可能需要更貼近 streaming prompt/decoder 的調校。

總排行

Normalized CER 排名

Rank Model CER WER Speed Avg Latency p95 Latency

準確度條形圖

越短越好 normalized CER

速度與準確度取捨

CER / 延遲散點圖

Cohere Parakeet faster-whisper Qwen Nemotron

延遲分佈

Model p50 p90 p95 p99 Max

latency 是模型已載入後每條音訊的離線推理時間,不包含直播系統中的 VAD 等待、音訊緩衝、網路與翻譯耗時。

資料集級別分析

CommonVoice 8.0

Cohere 最強,CER 4.07;Parakeet 7.48 排第二。這組更接近朗讀/句子資料,Cohere 的文字修正能力吃到明顯優勢。

JSUT Basic5000

Parakeet 最強,CER 6.63;faster-whisper 7.27,Cohere 8.28。這組乾淨朗讀下,小模型速度優勢非常突出。

ReazonSpeech Test

Cohere 最強,CER 6.89;Parakeet 10.20。更接近日常節目語音時,Qwen 與 Nemotron 的錯誤率上升明顯。

Per Dataset Metrics

Model Dataset Samples CER norm WER norm CER raw Speed Avg Latency

模型解讀

方法與限制

測試方法

  • 資料集採用 Japanese-ASR 頁面同風格測試:`common_voice_8_0`、`jsut_basic5000`、`reazonspeech_test`。
  • 每個模型各跑 14,746 條音訊,總計 73,730 條,沒有 error 行。
  • normalized 指標使用 Whisper `BasicTextNormalizer()` 後移除空格;主要排行依三資料集 normalized CER 的平均值排序。
  • WER 對日語連續文本的參考價值較弱,這份報告保留 WER,但實際選型主要看 CER、延遲和速度。

環境與解讀

  • 完整測試使用 `NVIDIA L4`,模型快取與輸出集中保存在專案資料夾內。
  • 這裡的速度是總音訊長度除以總推理時間;直播端還要加上 VAD 切片策略、翻譯模型與字幕推送延遲。
  • 對直播即時字幕,建議優先做 Parakeet 主路、Cohere 高精修或回補、faster-whisper fallback 的架構。

檔案

File 用途
ranking.csv 模型總排名,按平均 normalized CER 排序。
summary.csv 每個模型在每個資料集上的 CER/WER/速度/延遲。
predictions.csv.gz 73,730 條逐樣本轉錄結果與原文欄位,已壓縮。
results.xlsx Excel 版本,方便篩選和校對。
report.md 原始 Markdown 摘要。