WMT2024++#
概述#
WMT2024++ 是一个基于 WMT 2024 新闻翻译任务的综合性机器翻译基准测试。它支持以英语为源语言的 54 个语言对,可用于评估模型在多种目标语言上的翻译质量。
任务描述#
任务类型:机器翻译
输入:带有翻译提示的英文源文本
输出:目标语言的翻译文本
语言对:54 个(英语到 54 种目标语言)
主要特性#
广泛的多语言覆盖(54 种目标语言)
新闻领域文本,贴近实际应用场景
多种评估指标(BLEU、BERTScore、COMET)
标准化的提示模板,确保评估一致性
支持批量评分以提升效率
评估说明#
默认配置使用 0-shot 评估
评估指标:BLEU、BERTScore(XLM-RoBERTa)、COMET(wmt22-comet-da)
在 test 划分上进行评估
应用语言特定的归一化处理
COMET 指标需要安装
unbabel-comet包子集代表单个语言对(例如
en-zh_cn、en-de_de)
属性#
属性 |
值 |
|---|---|
基准测试名称 |
|
数据集ID |
|
论文 |
N/A |
标签 |
|
指标 |
|
默认示例数 |
0-shot |
评估划分 |
|
数据统计#
指标 |
值 |
|---|---|
总样本数 |
52,800 |
提示词长度(平均) |
265.45 字符 |
提示词长度(最小/最大) |
71 / 1047 字符 |
各子集统计数据:
子集 |
样本数 |
提示平均长度 |
提示最小长度 |
提示最大长度 |
|---|---|---|---|---|
|
960 |
263.26 |
75 |
1039 |
|
960 |
263.26 |
75 |
1039 |
|
960 |
269.26 |
81 |
1045 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
261.26 |
73 |
1037 |
|
960 |
263.26 |
75 |
1039 |
|
960 |
263.26 |
75 |
1039 |
|
960 |
261.26 |
73 |
1037 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
267.26 |
79 |
1043 |
|
960 |
261.26 |
73 |
1037 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
267.26 |
79 |
1043 |
|
960 |
263.26 |
75 |
1039 |
|
960 |
263.26 |
75 |
1039 |
|
960 |
267.26 |
79 |
1043 |
|
960 |
263.26 |
75 |
1039 |
|
960 |
261.26 |
73 |
1037 |
|
960 |
267.26 |
79 |
1043 |
|
960 |
269.26 |
81 |
1045 |
|
960 |
271.26 |
83 |
1047 |
|
960 |
269.26 |
81 |
1045 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
267.26 |
79 |
1043 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
263.26 |
75 |
1039 |
|
960 |
271.26 |
83 |
1047 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
269.26 |
81 |
1045 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
261.26 |
73 |
1037 |
|
960 |
269.26 |
81 |
1045 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
263.26 |
75 |
1039 |
|
960 |
271.26 |
83 |
1047 |
|
960 |
271.26 |
83 |
1047 |
|
960 |
267.26 |
79 |
1043 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
263.26 |
75 |
1039 |
|
960 |
269.26 |
81 |
1045 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
261.26 |
73 |
1037 |
|
960 |
263.26 |
75 |
1039 |
|
960 |
259.26 |
71 |
1035 |
|
960 |
265.26 |
77 |
1041 |
|
960 |
269.26 |
81 |
1045 |
|
960 |
259.26 |
71 |
1035 |
|
960 |
271.26 |
83 |
1047 |
|
960 |
267.26 |
79 |
1043 |
|
960 |
267.26 |
79 |
1043 |
|
960 |
259.26 |
71 |
1035 |
样例示例#
子集: en-ar_eg
{
"input": [
{
"id": "557f3aa1",
"content": [
{
"text": "Translate the following english sentence into arabic:\n\nenglish: Siso's depictions of land, water center new gallery exhibition\narabic:"
}
]
}
],
"target": "رسومات سيسو عن الأرض والمية في معرضه الجديد",
"id": 0,
"group_id": 0,
"subset_key": "en-ar_eg",
"metadata": {
"source_text": "Siso's depictions of land, water center new gallery exhibition",
"target_text": "رسومات سيسو عن الأرض والمية في معرضه الجديد",
"source_language": "en",
"target_language": "ar_eg"
}
}
提示模板#
提示模板:
Translate the following {source_language} sentence into {target_language}:
{source_language}: {source_text}
{target_language}:
使用方法#
使用 CLI#
evalscope eval \
--model YOUR_MODEL \
--api-url OPENAI_API_COMPAT_URL \
--api-key EMPTY_TOKEN \
--datasets wmt24pp \
--limit 10 # 正式评估时请删除此行
使用 Python#
from evalscope import run_task
from evalscope.config import TaskConfig
task_cfg = TaskConfig(
model='YOUR_MODEL',
api_url='OPENAI_API_COMPAT_URL',
api_key='EMPTY_TOKEN',
datasets=['wmt24pp'],
dataset_args={
'wmt24pp': {
# subset_list: ['en-ar_eg', 'en-ar_sa', 'en-bg_bg'] # 可选,用于评估特定子集
}
},
limit=10, # 正式评估时请删除此行
)
run_task(task_cfg=task_cfg)