ArxivRollBench#
概述#
ArxivRollBench 是一个基于近期 arXiv 论文构建的滚动基准测试。它通过三种任务形式(排序、完形填空和下一段预测)评估大语言模型是否能够对最新的科学文本进行推理。
任务描述#
任务类型:多项选择科学文本推理
输入:近期 arXiv 文本片段,附带四个选项
输出:单个正确答案字母(A、B、C 或 D)
领域:计算机科学、定量金融、数学、物理学、统计学、定量生物学、经济学以及电气工程/系统科学
版本:2024b、2025a 和 2026a 的滚动快照
主要特点#
时间感知的基准快照可减少因数据污染导致的性能高估
覆盖多个 arXiv 领域及不同科学写作风格
在 SCP 框架下包含排序(sequencing)、完形填空(cloze)和预测(prediction)三种格式
紧凑型
-50子集适用于成本可控的 API 评估完整子集可通过
arxivrollbench_full获取
评估说明#
默认配置使用 0-shot 评估
默认的
arxivrollbench基准使用紧凑型-50数据集如需完整公开子集,请使用
arxivrollbench_full每个子集均从
liangzid命名空间下的公开 ModelScope 镜像加载答案统一归一化为 A-D,并以准确率(accuracy)进行评估
属性#
属性 |
值 |
|---|---|
基准测试名称 |
|
数据集ID |
|
论文 |
|
标签 |
|
指标 |
|
默认示例数 |
0-shot |
评估分割 |
|
数据统计#
指标 |
值 |
|---|---|
总样本数 |
3,254 |
提示词长度(平均) |
1514.19 字符 |
提示词长度(最小/最大) |
307 / 14112 字符 |
各子集统计数据:
子集 |
样本数 |
提示平均长度 |
提示最小长度 |
提示最大长度 |
|---|---|---|---|---|
|
42 |
949.6 |
590 |
1805 |
|
31 |
307 |
307 |
307 |
|
50 |
2617.32 |
922 |
7512 |
|
49 |
1042.31 |
586 |
2329 |
|
44 |
307 |
307 |
307 |
|
50 |
3430.52 |
872 |
9106 |
|
34 |
829.85 |
593 |
2115 |
|
15 |
307 |
307 |
307 |
|
51 |
1957.24 |
869 |
6260 |
|
45 |
957.11 |
576 |
4402 |
|
28 |
307 |
307 |
307 |
|
51 |
2948.1 |
885 |
13643 |
|
45 |
936.4 |
582 |
1678 |
|
33 |
307 |
307 |
307 |
|
50 |
2946.44 |
861 |
7026 |
|
43 |
975 |
583 |
2555 |
|
34 |
307 |
307 |
307 |
|
49 |
3354.53 |
883 |
8867 |
|
48 |
1021.58 |
586 |
2070 |
|
43 |
307 |
307 |
307 |
|
50 |
3257.76 |
846 |
8967 |
|
48 |
1034.56 |
574 |
2922 |
|
42 |
307 |
307 |
307 |
|
51 |
2612.69 |
882 |
8609 |
|
50 |
921.2 |
592 |
1632 |
|
44 |
307 |
307 |
307 |
|
51 |
2895.02 |
942 |
6540 |
|
50 |
931.08 |
589 |
2202 |
|
43 |
307 |
307 |
307 |
|
51 |
2837.86 |
793 |
7577 |
|
42 |
852.52 |
580 |
1595 |
|
28 |
307 |
307 |
307 |
|
51 |
2449.49 |
889 |
6893 |
|
44 |
939.32 |
587 |
1874 |
|
34 |
307 |
307 |
307 |
|
49 |
3568.29 |
1001 |
9325 |
|
48 |
932.81 |
600 |
2063 |
|
42 |
307 |
307 |
307 |
|
50 |
3115.36 |
822 |
7349 |
|
49 |
1074.12 |
591 |
1810 |
|
49 |
307 |
307 |
307 |
|
50 |
3639.26 |
1038 |
8890 |
|
48 |
982.19 |
591 |
2322 |
|
45 |
307 |
307 |
307 |
|
51 |
2860.9 |
884 |
6494 |
|
46 |
1017.35 |
588 |
1807 |
|
42 |
307 |
307 |
307 |
|
50 |
3541.1 |
943 |
14112 |
|
51 |
944.12 |
584 |
1795 |
|
38 |
307 |
307 |
307 |
|
51 |
2629.06 |
919 |
5234 |
|
48 |
1025.44 |
608 |
2320 |
|
45 |
307 |
307 |
307 |
|
51 |
3094.78 |
872 |
6644 |
|
44 |
844.05 |
575 |
1381 |
|
30 |
307 |
307 |
307 |
|
51 |
2160.27 |
860 |
12385 |
|
47 |
1082.04 |
599 |
2522 |
|
41 |
307 |
307 |
307 |
|
50 |
3420.58 |
894 |
8788 |
|
49 |
1013.47 |
575 |
2482 |
|
46 |
307 |
307 |
307 |
|
51 |
2564.47 |
955 |
6387 |
|
47 |
1019.7 |
584 |
1707 |
|
40 |
307 |
307 |
307 |
|
48 |
3030.71 |
954 |
6468 |
|
48 |
989.67 |
580 |
2320 |
|
47 |
307 |
307 |
307 |
|
51 |
2920.76 |
885 |
7061 |
|
51 |
988.14 |
579 |
2231 |
|
45 |
307 |
307 |
307 |
|
51 |
2812.61 |
922 |
5589 |
样例示例#
子集: 2024b_cs_s
{
"input": [
{
"id": "7b220fd6",
"content": "Answer the following ArxivRollBench multiple choice question. The entire content of your response should be of the following format: 'ANSWER: [LETTER]' (without quotes) where [LETTER] is one of A,B,C,D.\n\nSelect the option that correctly compl ... [TRUNCATED 381 chars] ... m a diagonal matrix into the identity, allows us to write the input matrix as a product of transvections. **C**: Note that row and column operations are effected by left- and right multiplications by transvections\n\nA) BAC\nB) ABC\nC) ACB\nD) BCA"
}
],
"choices": [
"BAC",
"ABC",
"ACB",
"BCA"
],
"target": "C",
"id": 0,
"group_id": 0,
"metadata": {
"original_label": "Selection 3",
"task_type": "s/c"
}
}
提示模板#
提示模板:
Answer the following ArxivRollBench multiple choice question. The entire content of your response should be of the following format: 'ANSWER: [LETTER]' (without quotes) where [LETTER] is one of {letters}.
{question}
{choices}
使用方法#
使用 CLI#
evalscope eval \
--model YOUR_MODEL \
--api-url OPENAI_API_COMPAT_URL \
--api-key EMPTY_TOKEN \
--datasets arxivrollbench \
--limit 10 # 正式评估时请删除此行
使用 Python#
from evalscope import run_task
from evalscope.config import TaskConfig
task_cfg = TaskConfig(
model='YOUR_MODEL',
api_url='OPENAI_API_COMPAT_URL',
api_key='EMPTY_TOKEN',
datasets=['arxivrollbench'],
dataset_args={
'arxivrollbench': {
# subset_list: ['2024b_cs_s', '2024b_cs_c', '2024b_cs_p'] # 可选,用于评估特定子集
}
},
limit=10, # 正式评估时请删除此行
)
run_task(task_cfg=task_cfg)