支持的数据集#
1. 原生支持的数据集#
小技巧
目前框架原生支持如下数据集,若您需要的数据集不在列表中,可以提交issue,我们会尽快支持;也可以参考基准评测添加指南,自行添加数据集并提交PR,欢迎贡献。
您也可以使用本框架支持的其他工具进行评测,如OpenCompass进行语言模型评测;或使用VLMEvalKit进行多模态模型评测。
名称 |
数据集ID |
任务类别 |
备注 |
---|---|---|---|
|
考试 |
||
|
综合推理 |
||
|
中文-综合考试 |
||
|
中文-综合考试 |
||
|
数学竞赛 |
||
|
数学问题 |
||
|
常识推理 |
||
|
代码生成 |
||
|
指令遵循 |
||
|
综合考试 |
||
|
综合考试 |
||
|
阅读理解 |
||
|
知识问答 |
||
|
安全性 |
备注
* 评测需要计算logits等,暂不支持API服务评测(eval-type != server
)。
+ 因为涉及到代码运行的操作,建议在沙盒环境(docker)中运行,防止对本地环境造成影响。
2. OpenCompass评测后端支持的数据集#
参考详细说明
语言 | 知识 | 推理 | 考试 |
字词释义
成语习语
语义相似度
指代消解
翻译
多语种问答
多语种总结
|
知识问答
|
文本蕴含
常识推理
数学推理
定理应用
综合推理
|
初中/高中/大学/职业考试
医学考试
|
理解 | 长文本 | 安全 | 代码 |
阅读理解
内容总结
内容分析
|
长文本理解
|
安全
健壮性
|
代码
|
3. VLMEvalKit评测后端支持的数据集#
参考详细说明
图文多模态评测集#
使用的缩写:
MCQ
: 单项选择题;Y/N
: 正误判断题;MTT
: 多轮对话评测;MTI
: 多图输入评测
数据集 |
名称 |
任务 |
---|---|---|
MMBench Series: |
MMBench_DEV_[EN/CN] |
MCQ |
MMStar |
MCQ |
|
MME |
Y/N |
|
SEEDBench_IMG |
MCQ |
|
MMVet |
VQA |
|
MMMU_[DEV_VAL/TEST] |
MCQ |
|
MathVista_MINI |
VQA |
|
ScienceQA_[VAL/TEST] |
MCQ |
|
COCO_VAL |
Caption |
|
HallusionBench |
Y/N |
|
OCRVQA_[TESTCORE/TEST] |
VQA |
|
TextVQA_VAL |
VQA |
|
ChartQA_TEST |
VQA |
|
AI2D_[TEST/TEST_NO_MASK] |
MCQ |
|
LLaVABench |
VQA |
|
DocVQA_[VAL/TEST] |
VQA |
|
InfoVQA_[VAL/TEST] |
VQA |
|
OCRBench |
VQA |
|
RealWorldQA |
MCQ |
|
POPE |
Y/N |
|
CORE_MM (MTI) |
VQA |
|
MMT-Bench_[VAL/ALL] |
MCQ (MTI) |
|
MLLMGuard_DS |
VQA |
|
AesBench_[VAL/TEST] |
MCQ |
|
VCR-wiki + |
VCR_[EN/ZH]_[EASY/HARD]_[ALL/500/100] |
VQA |
MMLongBench_DOC |
VQA (MTI) |
|
BLINK |
MCQ (MTI) |
|
MathVision |
VQA |
|
MTVQA_TEST |
VQA |
|
MMDU+ |
MMDU |
VQA (MTT, MTI) |
Q-Bench1_[VAL/TEST] |
MCQ |
|
A-Bench_[VAL/TEST] |
MCQ |
|
DUDE+ |
DUDE |
VQA (MTI) |
SLIDEVQA |
VQA (MTI) |
|
TaskMeAnything_v1_imageqa_random |
MCQ |
|
MMMB_[ar/cn/en/pt/ru/tr] |
MCQ |
|
A-OKVQA |
MCQ |
|
MUIRBench |
MCQ |
|
GMAI-MMBench_VAL |
MCQ |
|
TableVQABench |
VQA |
备注
* 只提供了部分模型上的测试结果,剩余模型无法在 zero-shot 设定下测试出合理的精度
+ 尚未提供这个评测集的测试结果
- VLMEvalKit 仅支持这个评测集的推理,无法输出最终精度
视频多模态评测集#
数据集 |
数据集名称 |
任务 |
---|---|---|
MMBench-Video |
VQA |
|
MVBench_MP4 |
MCQ |
|
MLVU |
MCQ & VQA |
|
TempCompass |
MCQ & Y/N & Caption |
|
LongVideoBench |
MCQ |
|
Video-MME |
MCQ |
4. RAGEval评测后端支持的数据集#
CMTEB 评测数据集#
名称 |
Hub链接 |
描述 |
类型 |
类别 |
测试样本数量 |
---|---|---|---|---|---|
T2Ranking:一个大规模的中文段落排序基准 |
检索 |
s2p |
24,832 |
||
mMARCO是MS MARCO段落排序数据集的多语言版本 |
检索 |
s2p |
7,437 |
||
一个大规模的中文网页搜索引擎段落检索基准 |
检索 |
s2p |
4,000 |
||
COVID-19新闻文章 |
检索 |
s2p |
949 |
||
在线医疗咨询文本 |
检索 |
s2p |
3,999 |
||
从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集 |
检索 |
s2p |
1,000 |
||
从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集 |
检索 |
s2p |
1,000 |
||
从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集 |
检索 |
s2p |
1,000 |
||
T2Ranking:一个大规模的中文段落排序基准 |
重新排序 |
s2p |
24,382 |
||
mMARCO是MS MARCO段落排序数据集的多语言版本 |
重新排序 |
s2p |
7,437 |
||
中文社区医疗问答 |
重新排序 |
s2p |
2,000 |
||
中文社区医疗问答 |
重新排序 |
s2p |
4,000 |
||
原始中文自然语言推理数据集 |
配对分类 |
s2s |
3,000 |
||
中文多类别自然语言推理 |
配对分类 |
s2s |
139,000 |
||
从CLS数据集中聚类标题。基于主要类别的13个集合的聚类。 |
聚类 |
s2s |
10,000 |
||
从CLS数据集中聚类标题+摘要。基于主要类别的13个集合的聚类。 |
聚类 |
p2p |
10,000 |
||
从THUCNews数据集中聚类标题 |
聚类 |
s2s |
10,000 |
||
从THUCNews数据集中聚类标题+摘要 |
聚类 |
p2p |
10,000 |
||
ATEC NLP句子对相似性竞赛 |
STS |
s2s |
20,000 |
||
银行问题语义相似性 |
STS |
s2s |
10,000 |
||
大规模中文问题匹配语料库 |
STS |
s2s |
12,500 |
||
翻译的PAWS评测对 |
STS |
s2s |
2,000 |
||
将STS-B翻译成中文 |
STS |
s2s |
1,360 |
||
蚂蚁金服问答匹配语料库 |
STS |
s2s |
3,861 |
||
QQ浏览器查询标题语料库 |
STS |
s2s |
5,000 |
||
新闻短文本分类 |
分类 |
s2s |
10,000 |
||
应用描述的长文本分类 |
分类 |
s2s |
2,600 |
||
外卖平台用户评论的情感分析 |
分类 |
s2s |
1,000 |
||
在线购物网站用户评论的情感分析 |
分类 |
s2s |
1,000 |
||
一组按三类分组的多语言情感数据集--正面、中立、负面 |
分类 |
s2s |
3,000 |
||
iPhone的评论 |
分类 |
s2s |
533 |
对于检索任务,从整个语料库中抽样100,000个候选项(包括真实值),以降低推理成本。
MTEB 评测数据集#
参见
参考:MTEB相关任务
CLIP-Benchmark#
数据集名称 |
任务类型 |
备注 |
---|---|---|
zeroshot_retrieval |
中文多模态图文数据集 |
|
zeroshot_retrieval |
||
zeroshot_retrieval |
||
zeroshot_retrieval |
||
zeroshot_retrieval |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |
||
zeroshot_classification |