ArxivRollBench-Full#
概述#
ArxivRollBench 是一个基于近期 arXiv 论文构建的滚动基准测试,通过三种任务形式(排序、完形填空和下一段预测)评估大语言模型是否能够对最新科学文本进行推理。
任务描述#
任务类型:多项选择科学文本推理
输入:近期 arXiv 文本片段及四个选项
输出:单个正确答案字母(A、B、C 或 D)
领域:计算机科学、定量金融、数学、物理学、统计学、定量生物学、经济学以及电气工程/系统科学
版本:2024b、2025a 和 2026a 的滚动快照
主要特点#
时间感知的基准快照可减少因数据污染导致的性能高估
覆盖多个 arXiv 领域和科学写作风格
在 SCP 框架下包含排序(sequencing)、完形填空(cloze)和预测(prediction)三种格式
紧凑型
-50子集适用于成本受限的 API 评估完整子集以
arxivrollbench_full形式提供
评估说明#
默认配置使用 0-shot 评估
默认的
arxivrollbench基准使用紧凑型-50数据集使用
arxivrollbench_full获取完整的公开子集每个子集均从
liangzid命名空间下的公开 ModelScope 镜像加载答案被标准化为 A-D,并以准确率(accuracy)进行评估
属性#
属性 |
值 |
|---|---|
基准测试名称 |
|
数据集ID |
|
论文 |
|
标签 |
|
指标 |
|
默认示例数 |
0-shot |
评估分割 |
|
数据统计#
指标 |
值 |
|---|---|
总样本数 |
245,433 |
提示词长度(平均) |
1499.93 字符 |
提示词长度(最小/最大) |
307 / 28864 字符 |
各子集统计数据:
子集 |
样本数 |
提示平均长度 |
提示最小长度 |
提示最大长度 |
|---|---|---|---|---|
|
2,931 |
962.16 |
574 |
4774 |
|
2,377 |
307 |
307 |
307 |
|
3,166 |
2663.27 |
793 |
10327 |
|
852 |
1026.01 |
574 |
3549 |
|
747 |
307 |
307 |
307 |
|
881 |
3207.96 |
793 |
16189 |
|
2,107 |
886.2 |
574 |
3466 |
|
1,238 |
307 |
307 |
307 |
|
2,532 |
2295.3 |
793 |
11911 |
|
1,966 |
984.28 |
575 |
4225 |
|
1,482 |
307 |
307 |
307 |
|
2,141 |
3166.87 |
793 |
28864 |
|
3,482 |
985.03 |
574 |
6098 |
|
2,800 |
307 |
307 |
307 |
|
3,704 |
3000.94 |
793 |
15321 |
|
1,485 |
1039.14 |
574 |
3895 |
|
1,318 |
307 |
307 |
307 |
|
1,550 |
3332.41 |
804 |
16126 |
|
879 |
1023.84 |
576 |
3421 |
|
764 |
307 |
307 |
307 |
|
919 |
3176.67 |
851 |
15040 |
|
3,771 |
1014.36 |
574 |
4356 |
|
3,278 |
307 |
307 |
307 |
|
3,976 |
3048.85 |
793 |
17290 |
|
12,806 |
981.57 |
574 |
5696 |
|
11,244 |
307 |
307 |
307 |
|
13,331 |
2823.48 |
793 |
20389 |
|
851 |
1013.21 |
576 |
2609 |
|
758 |
307 |
307 |
307 |
|
884 |
3128.37 |
793 |
13025 |
|
10,362 |
908.79 |
574 |
6001 |
|
6,344 |
307 |
307 |
307 |
|
12,145 |
2444.85 |
793 |
12037 |
|
10,696 |
1002.06 |
574 |
4761 |
|
8,358 |
307 |
307 |
307 |
|
11,595 |
3369.68 |
793 |
25245 |
|
5,288 |
985.58 |
574 |
8627 |
|
4,285 |
307 |
307 |
307 |
|
5,589 |
2935.37 |
793 |
15676 |
|
1,598 |
1043.55 |
574 |
3115 |
|
1,443 |
307 |
307 |
307 |
|
1,669 |
3370.82 |
796 |
18074 |
|
951 |
998.31 |
574 |
2900 |
|
827 |
307 |
307 |
307 |
|
982 |
3176.93 |
793 |
11038 |
|
8,171 |
1011.86 |
574 |
3844 |
|
7,155 |
307 |
307 |
307 |
|
8,577 |
3042.87 |
793 |
18934 |
|
1,857 |
981.82 |
574 |
3532 |
|
1,648 |
307 |
307 |
307 |
|
1,933 |
2724.96 |
814 |
11328 |
|
986 |
985.79 |
574 |
2961 |
|
886 |
307 |
307 |
307 |
|
1,046 |
2727.72 |
802 |
10072 |
|
2,435 |
869.86 |
574 |
3795 |
|
1,600 |
307 |
307 |
307 |
|
2,777 |
1953.57 |
808 |
12053 |
|
1,863 |
1007.76 |
574 |
3813 |
|
1,575 |
307 |
307 |
307 |
|
2,019 |
3072.96 |
798 |
13540 |
|
3,126 |
964.56 |
574 |
3136 |
|
2,627 |
307 |
307 |
307 |
|
3,322 |
2549.38 |
814 |
10028 |
|
1,502 |
1020.61 |
574 |
3281 |
|
1,373 |
307 |
307 |
307 |
|
1,569 |
3074.52 |
806 |
11848 |
|
914 |
995.97 |
574 |
3043 |
|
828 |
307 |
307 |
307 |
|
973 |
2858.55 |
818 |
11577 |
|
4,200 |
1006.27 |
574 |
3698 |
|
3,710 |
307 |
307 |
307 |
|
4,409 |
2790.21 |
817 |
13794 |
样例示例#
子集: 2024b_cs_s
{
"input": [
{
"id": "509c2daa",
"content": "Answer the following ArxivRollBench multiple choice question. The entire content of your response should be of the following format: 'ANSWER: [LETTER]' (without quotes) where [LETTER] is one of A,B,C,D.\n\nSelect the option that correctly compl ... [TRUNCATED 283 chars] ... rators can be used directly to verify representations of classical groups [12].\n**C**: In practice it is the generating set produced by the constructive recognition algorithms from [10, 11] as implemented in MAGMA\n\nA) CAB\nB) ACB\nC) BAC\nD) CAB"
}
],
"choices": [
"CAB",
"ACB",
"BAC",
"CAB"
],
"target": "B",
"id": 0,
"group_id": 0,
"metadata": {
"original_label": "Selection 2",
"task_type": "s/c"
}
}
提示模板#
提示模板:
Answer the following ArxivRollBench multiple choice question. The entire content of your response should be of the following format: 'ANSWER: [LETTER]' (without quotes) where [LETTER] is one of {letters}.
{question}
{choices}
使用方法#
使用 CLI#
evalscope eval \
--model YOUR_MODEL \
--api-url OPENAI_API_COMPAT_URL \
--api-key EMPTY_TOKEN \
--datasets arxivrollbench_full \
--limit 10 # 正式评估时请删除此行
使用 Python#
from evalscope import run_task
from evalscope.config import TaskConfig
task_cfg = TaskConfig(
model='YOUR_MODEL',
api_url='OPENAI_API_COMPAT_URL',
api_key='EMPTY_TOKEN',
datasets=['arxivrollbench_full'],
dataset_args={
'arxivrollbench_full': {
# subset_list: ['2024b_cs_s', '2024b_cs_c', '2024b_cs_p'] # 可选,用于评估特定子集
}
},
limit=10, # 正式评估时请删除此行
)
run_task(task_cfg=task_cfg)