CommonVoice15#

概述#

Common Voice 15 是由 Mozilla 收集的大规模多语言语音语料库，涵盖 114 种语言，包含来自全球志愿者贡献的数千小时经过验证的语音数据。

任务描述#

任务类型：自动语音识别（ASR）
输入：包含多种语言语音的音频录音
输出：对应语言的转录文本
语言：114 种语言，包括英语、中文普通话、法语等

主要特点#

由社区贡献并经社区验证的语音录音
多样化的说话人人口统计特征（年龄、性别、口音）
多种语言，每种语言的数据量各不相同
采用 CC-0 许可证，允许开放研究和商业用途
高质量的转录文本，经多位听众验证

评估说明#

默认配置使用 test 数据划分
主要评估指标：词错误率（WER）
默认子集：en（英语）、zh-CN（中文普通话）、fr（法语）
评估过程中应用语言特定的文本归一化
提示词："Please recognize the speech and only output the recognized content"

属性#

属性	值
基准测试名称	`common_voice_15`
数据集ID	lmms-lab/common_voice_15
论文	N/A
标签	`Audio`, `MultiLingual`, `SpeechRecognition`
指标	`wer`
默认样本数	0-shot
评估划分	`test`

数据统计#

指标	值
总样本数	43,143
提示词长度（平均）	67 字符
提示词长度（最小/最大）	67 / 67 字符

各子集统计数据：

子集	样本数	提示词平均长度	提示词最小长度	提示词最大长度
`en`	16,386	67	67	67
`zh-CN`	10,625	67	67	67
`fr`	16,132	67	67	67

音频统计数据：

指标	值
音频文件总数	43,143
每样本音频数量	最小: 1, 最大: 1, 平均: 1
格式	mp3

样例示例#

子集: en

{
  "input": [
    {
      "id": "88959854",
      "content": [
        {
          "text": "Please recognize the speech and only output the recognized content:"
        },
        {
          "audio": "[BASE64_AUDIO: mp3, ~37.0KB]",
          "format": "mp3"
        }
      ]
    }
  ],
  "target": "Joe Keaton disapproved of films, and Buster also had reservations about the medium.",
  "id": 0,
  "group_id": 0,
  "subset_key": "en",
  "metadata": {
    "locale": "en",
    "path": "/home/tiger/.cache/huggingface/datasets/downloads/extracted/f54628fae82dd952031cdea3ec9c3d600c11d606e00cb8b3fd1b6ad500d7eb23/en_test_0/common_voice_en_27710027.mp3",
    "lang_id": "en"
  }
}

提示模板#

提示模板：

Please recognize the speech and only output the recognized content:

使用方法#

使用 CLI#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets common_voice_15 \
    --limit 10  # 正式评估时请删除此行

使用 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['common_voice_15'],
    dataset_args={
        'common_voice_15': {
            # subset_list: ['en', 'zh-CN', 'fr']  # 可选，用于评估特定子集
        }
    },
    limit=10,  # 正式评估时请删除此行
)

run_task(task_cfg=task_cfg)