WMT2024++#

概述#

WMT2024++ 是一个基于 WMT 2024 新闻翻译任务的综合性机器翻译基准测试。它支持以英语为源语言的 54 个语言对,可用于评估模型在多种目标语言上的翻译质量。

任务描述#

  • 任务类型:机器翻译

  • 输入:带有翻译提示的英文源文本

  • 输出:目标语言的翻译文本

  • 语言对:54 个(英语到 54 种目标语言)

主要特性#

  • 广泛的多语言覆盖(54 种目标语言)

  • 新闻领域文本,贴近实际应用场景

  • 多种评估指标(BLEU、BERTScore、COMET)

  • 标准化的提示模板,确保评估一致性

  • 支持批量评分以提升效率

评估说明#

  • 默认配置使用 0-shot 评估

  • 评估指标:BLEUBERTScore(XLM-RoBERTa)、COMET(wmt22-comet-da)

  • test 划分上进行评估

  • 应用语言特定的归一化处理

  • COMET 指标需要安装 unbabel-comet

  • 子集代表单个语言对(例如 en-zh_cnen-de_de

属性#

属性

基准测试名称

wmt24pp

数据集ID

extraordinarylab/wmt24pp

论文

N/A

标签

MachineTranslation, MultiLingual

指标

bleu, bert_score, comet

默认示例数

0-shot

评估划分

test

数据统计#

指标

总样本数

52,800

提示词长度(平均)

265.45 字符

提示词长度(最小/最大)

71 / 1047 字符

各子集统计数据:

子集

样本数

提示平均长度

提示最小长度

提示最大长度

en-ar_eg

960

263.26

75

1039

en-ar_sa

960

263.26

75

1039

en-bg_bg

960

269.26

81

1045

en-bn_in

960

265.26

77

1041

en-ca_es

960

265.26

77

1041

en-cs_cz

960

261.26

73

1037

en-da_dk

960

263.26

75

1039

en-de_de

960

263.26

75

1039

en-el_gr

960

261.26

73

1037

en-es_mx

960

265.26

77

1041

en-et_ee

960

267.26

79

1043

en-fa_ir

960

261.26

73

1037

en-fi_fi

960

265.26

77

1041

en-fil_ph

960

267.26

79

1043

en-fr_ca

960

263.26

75

1039

en-fr_fr

960

263.26

75

1039

en-gu_in

960

267.26

79

1043

en-he_il

960

263.26

75

1039

en-hi_in

960

261.26

73

1037

en-hr_hr

960

267.26

79

1043

en-hu_hu

960

269.26

81

1045

en-id_id

960

271.26

83

1047

en-is_is

960

269.26

81

1045

en-it_it

960

265.26

77

1041

en-ja_jp

960

267.26

79

1043

en-kn_in

960

265.26

77

1041

en-ko_kr

960

263.26

75

1039

en-lt_lt

960

271.26

83

1047

en-lv_lv

960

265.26

77

1041

en-ml_in

960

269.26

81

1045

en-mr_in

960

265.26

77

1041

en-nl_nl

960

261.26

73

1037

en-no_no

960

269.26

81

1045

en-pa_in

960

265.26

77

1041

en-pl_pl

960

263.26

75

1039

en-pt_br

960

271.26

83

1047

en-pt_pt

960

271.26

83

1047

en-ro_ro

960

267.26

79

1043

en-ru_ru

960

265.26

77

1041

en-sk_sk

960

263.26

75

1039

en-sl_si

960

269.26

81

1045

en-sr_rs

960

265.26

77

1041

en-sv_se

960

265.26

77

1041

en-sw_ke

960

265.26

77

1041

en-sw_tz

960

265.26

77

1041

en-ta_in

960

261.26

73

1037

en-te_in

960

263.26

75

1039

en-th_th

960

259.26

71

1035

en-tr_tr

960

265.26

77

1041

en-uk_ua

960

269.26

81

1045

en-ur_pk

960

259.26

71

1035

en-vi_vn

960

271.26

83

1047

en-zh_cn

960

267.26

79

1043

en-zh_tw

960

267.26

79

1043

en-zu_za

960

259.26

71

1035

样例示例#

子集: en-ar_eg

{
  "input": [
    {
      "id": "557f3aa1",
      "content": [
        {
          "text": "Translate the following english sentence into arabic:\n\nenglish: Siso's depictions of land, water center new gallery exhibition\narabic:"
        }
      ]
    }
  ],
  "target": "رسومات سيسو عن الأرض والمية في معرضه الجديد",
  "id": 0,
  "group_id": 0,
  "subset_key": "en-ar_eg",
  "metadata": {
    "source_text": "Siso's depictions of land, water center new gallery exhibition",
    "target_text": "رسومات سيسو عن الأرض والمية في معرضه الجديد",
    "source_language": "en",
    "target_language": "ar_eg"
  }
}

提示模板#

提示模板:

Translate the following {source_language} sentence into {target_language}:

{source_language}: {source_text}
{target_language}:

使用方法#

使用 CLI#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets wmt24pp \
    --limit 10  # 正式评估时请删除此行

使用 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['wmt24pp'],
    dataset_args={
        'wmt24pp': {
            # subset_list: ['en-ar_eg', 'en-ar_sa', 'en-bg_bg']  # 可选,用于评估特定子集
        }
    },
    limit=10,  # 正式评估时请删除此行
)

run_task(task_cfg=task_cfg)