FLEURS#

概述#

FLEURS（Few-shot Learning Evaluation of Universal Representations of Speech）是一个覆盖102种语言的大规模多语言基准测试，用于评估自动语音识别（ASR）、口语理解以及语音翻译任务。

任务描述#

任务类型：自动语音识别（ASR）
输入：包含多种语言语音的音频录音
输出：对应语言的转录文本
语言：涵盖102种语言，包括简体中文、粤语、英语等

主要特点#

覆盖102种语言的大规模多语言数据
源自FLoRes-101机器翻译基准测试
包含多样化的语系和文字系统
高质量的人工录音与转录
元数据包含性别、语系分组和说话人信息

评估说明#

默认配置使用 test 数据划分
主要指标：词错误率（Word Error Rate, WER）
默认子集：cmn_hans_cn（普通话）、en_us（英语）、yue_hant_hk（粤语）
评估过程中应用语言特定的文本归一化
提示词："Please recognize the speech and only output the recognized content"

属性#

属性	值
基准测试名称	`fleurs`
数据集ID	lmms-lab/fleurs
论文	N/A
标签	`Audio`, `MultiLingual`, `SpeechRecognition`
指标	`wer`
默认样本数（Shots）	0-shot
评估划分	`test`

数据统计#

指标	值
总样本数	2,411
提示词长度（平均）	67 字符
提示词长度（最小/最大）	67 / 67 字符

各子集统计数据：

子集	样本数	提示词平均长度	提示词最小长度	提示词最大长度
`cmn_hans_cn`	945	67	67	67
`en_us`	647	67	67	67
`yue_hant_hk`	819	67	67	67

音频统计数据：

指标	值
音频文件总数	2,411
每样本音频数量	最小: 1, 最大: 1, 平均: 1
格式	wav

样例示例#

子集: cmn_hans_cn

{
  "input": [
    {
      "id": "daf508c3",
      "content": [
        {
          "text": "Please recognize the speech and only output the recognized content:"
        },
        {
          "audio": "[BASE64_AUDIO: wav, ~648.8KB]",
          "format": "wav"
        }
      ]
    }
  ],
  "target": "这 并 不 是 告 别 这 是 一 个 篇 章 的 结 束 也 是 新 篇 章 的 开 始",
  "id": 0,
  "group_id": 0,
  "metadata": {
    "id": 1906,
    "num_samples": 166080,
    "raw_transcription": "“这并不是告别。这是一个篇章的结束，也是新篇章的开始。”",
    "language": "Mandarin Chinese",
    "gender": 0,
    "lang_id": "cmn_hans",
    "lang_group_id": 6
  }
}

提示模板#

提示模板：

Please recognize the speech and only output the recognized content:

使用方法#

使用命令行（CLI）#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets fleurs \
    --limit 10  # 正式评估时请删除此行

使用 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['fleurs'],
    dataset_args={
        'fleurs': {
            # subset_list: ['cmn_hans_cn', 'en_us', 'yue_hant_hk']  # 可选，用于指定评估子集
        }
    },
    limit=10,  # 正式评估时请删除此行
)

run_task(task_cfg=task_cfg)