CommonVoice15#
概述#
Common Voice 15 是由 Mozilla 收集的大规模多语言语音语料库,涵盖 114 种语言,包含来自全球志愿者贡献的数千小时经过验证的语音数据。
任务描述#
任务类型:自动语音识别(ASR)
输入:包含多种语言语音的音频录音
输出:对应语言的转录文本
语言:114 种语言,包括英语、中文普通话、法语等
主要特点#
由社区贡献并经社区验证的语音录音
多样化的说话人人口统计特征(年龄、性别、口音)
多种语言,每种语言的数据量各不相同
采用 CC-0 许可证,允许开放研究和商业用途
高质量的转录文本,经多位听众验证
评估说明#
默认配置使用 test 数据划分
主要评估指标:词错误率(WER)
默认子集:
en(英语)、zh-CN(中文普通话)、fr(法语)评估过程中应用语言特定的文本归一化
提示词:"Please recognize the speech and only output the recognized content"
属性#
属性 |
值 |
|---|---|
基准测试名称 |
|
数据集ID |
|
论文 |
N/A |
标签 |
|
指标 |
|
默认样本数 |
0-shot |
评估划分 |
|
数据统计#
指标 |
值 |
|---|---|
总样本数 |
43,143 |
提示词长度(平均) |
67 字符 |
提示词长度(最小/最大) |
67 / 67 字符 |
各子集统计数据:
子集 |
样本数 |
提示词平均长度 |
提示词最小长度 |
提示词最大长度 |
|---|---|---|---|---|
|
16,386 |
67 |
67 |
67 |
|
10,625 |
67 |
67 |
67 |
|
16,132 |
67 |
67 |
67 |
音频统计数据:
指标 |
值 |
|---|---|
音频文件总数 |
43,143 |
每样本音频数量 |
最小: 1, 最大: 1, 平均: 1 |
格式 |
mp3 |
样例示例#
子集: en
{
"input": [
{
"id": "88959854",
"content": [
{
"text": "Please recognize the speech and only output the recognized content:"
},
{
"audio": "[BASE64_AUDIO: mp3, ~37.0KB]",
"format": "mp3"
}
]
}
],
"target": "Joe Keaton disapproved of films, and Buster also had reservations about the medium.",
"id": 0,
"group_id": 0,
"subset_key": "en",
"metadata": {
"locale": "en",
"path": "/home/tiger/.cache/huggingface/datasets/downloads/extracted/f54628fae82dd952031cdea3ec9c3d600c11d606e00cb8b3fd1b6ad500d7eb23/en_test_0/common_voice_en_27710027.mp3",
"lang_id": "en"
}
}
提示模板#
提示模板:
Please recognize the speech and only output the recognized content:
使用方法#
使用 CLI#
evalscope eval \
--model YOUR_MODEL \
--api-url OPENAI_API_COMPAT_URL \
--api-key EMPTY_TOKEN \
--datasets common_voice_15 \
--limit 10 # 正式评估时请删除此行
使用 Python#
from evalscope import run_task
from evalscope.config import TaskConfig
task_cfg = TaskConfig(
model='YOUR_MODEL',
api_url='OPENAI_API_COMPAT_URL',
api_key='EMPTY_TOKEN',
datasets=['common_voice_15'],
dataset_args={
'common_voice_15': {
# subset_list: ['en', 'zh-CN', 'fr'] # 可选,用于评估特定子集
}
},
limit=10, # 正式评估时请删除此行
)
run_task(task_cfg=task_cfg)