支持的数据集#

1. 原生支持的数据集#

小技巧

目前框架原生支持如下数据集,若您需要的数据集不在列表中,可以提交issue,我们会尽快支持;也可以参考基准评测添加指南,自行添加数据集并提交PR,欢迎贡献。

您也可以使用本框架支持的其他工具进行评测,如OpenCompass进行语言模型评测;或使用VLMEvalKit进行多模态模型评测。

名称

数据集ID

任务类别

备注

arc

modelscope/ai2_arc

考试

bbh

modelscope/bbh

综合推理

ceval

modelscope/ceval-exam

中文-综合考试

cmmlu

modelscope/cmmlu

中文-综合考试

competition_math

modelscope/competition_math

数学竞赛

gsm8k

modelscope/gsm8k

数学问题

hellaswag

modelscope/hellaswag

常识推理

humaneval+

modelscope/humaneval

代码生成

ifeval

modelscope/ifeval

指令遵循

mmlu

modelscope/mmlu

综合考试

mmlu_pro

modelscope/mmlu-pro

综合考试

race

modelscope/race

阅读理解

trivia_qa

modelscope/trivia_qa

知识问答

truthful_qa*

modelscope/truthful_qa

安全性

备注

* 评测需要计算logits等,暂不支持API服务评测(eval-type != server)。

+ 因为涉及到代码运行的操作,建议在沙盒环境(docker)中运行,防止对本地环境造成影响。

2. OpenCompass评测后端支持的数据集#

参考详细说明

语言 知识 推理 考试
字词释义
  • WiC

  • SummEdits

成语习语
  • CHID

语义相似度
  • AFQMC

  • BUSTM

指代消解
  • CLUEWSC

  • WSC

  • WinoGrande

翻译
  • Flores

  • IWSLT2017

多语种问答
  • TyDi-QA

  • XCOPA

多语种总结
  • XLSum

知识问答
  • BoolQ

  • CommonSenseQA

  • NaturalQuestions

  • TriviaQA

文本蕴含
  • CMNLI

  • OCNLI

  • OCNLI_FC

  • AX-b

  • AX-g

  • CB

  • RTE

  • ANLI

常识推理
  • StoryCloze

  • COPA

  • ReCoRD

  • HellaSwag

  • PIQA

  • SIQA

数学推理
  • MATH

  • GSM8K

定理应用
  • TheoremQA

  • StrategyQA

  • SciBench

综合推理
  • BBH

初中/高中/大学/职业考试
  • C-Eval

  • AGIEval

  • MMLU

  • GAOKAO-Bench

  • CMMLU

  • ARC

  • Xiezhi

医学考试
  • CMB

理解 长文本 安全 代码
阅读理解
  • C3

  • CMRC

  • DRCD

  • MultiRC

  • RACE

  • DROP

  • OpenBookQA

  • SQuAD2.0

内容总结
  • CSL

  • LCSTS

  • XSum

  • SummScreen

内容分析
  • EPRSTMT

  • LAMBADA

  • TNEWS

长文本理解
  • LEval

  • LongBench

  • GovReports

  • NarrativeQA

  • Qasper

安全
  • CivilComments

  • CrowsPairs

  • CValues

  • JigsawMultilingual

  • TruthfulQA

健壮性
  • AdvGLUE

代码
  • HumanEval

  • HumanEvalX

  • MBPP

  • APPs

  • DS1000

3. VLMEvalKit评测后端支持的数据集#

参考详细说明

图文多模态评测集#

使用的缩写:

  • MCQ: 单项选择题;

  • Y/N: 正误判断题;

  • MTT: 多轮对话评测;

  • MTI: 多图输入评测

数据集

名称

任务

MMBench Series:
MMBench, MMBench-CN, CCBench

MMBench_DEV_[EN/CN]
MMBench_TEST_[EN/CN]
MMBench_DEV_[EN/CN]_V11
MMBench_TEST_[EN/CN]_V11
CCBench

MCQ

MMStar

MMStar

MCQ

MME

MME

Y/N

SEEDBench Series

SEEDBench_IMG
SEEDBench2
SEEDBench2_Plus

MCQ

MM-Vet

MMVet

VQA

MMMU

MMMU_[DEV_VAL/TEST]

MCQ

MathVista

MathVista_MINI

VQA

ScienceQA_IMG

ScienceQA_[VAL/TEST]

MCQ

COCO Caption

COCO_VAL

Caption

HallusionBench

HallusionBench

Y/N

OCRVQA*

OCRVQA_[TESTCORE/TEST]

VQA

TextVQA*

TextVQA_VAL

VQA

ChartQA*

ChartQA_TEST

VQA

AI2D

AI2D_[TEST/TEST_NO_MASK]

MCQ

LLaVABench

LLaVABench

VQA

DocVQA+

DocVQA_[VAL/TEST]

VQA

InfoVQA+

InfoVQA_[VAL/TEST]

VQA

OCRBench

OCRBench

VQA

RealWorldQA

RealWorldQA

MCQ

POPE

POPE

Y/N

Core-MM-

CORE_MM (MTI)

VQA

MMT-Bench

MMT-Bench_[VAL/ALL]
MMT-Bench_[VAL/ALL]_MI

MCQ (MTI)

MLLMGuard -

MLLMGuard_DS

VQA

AesBench+

AesBench_[VAL/TEST]

MCQ

VCR-wiki +

VCR_[EN/ZH]_[EASY/HARD]_[ALL/500/100]

VQA

MMLongBench-Doc+

MMLongBench_DOC

VQA (MTI)

BLINK

BLINK

MCQ (MTI)

MathVision+

MathVision
MathVision_MINI

VQA

MT-VQA+

MTVQA_TEST

VQA

MMDU+

MMDU

VQA (MTT, MTI)

Q-Bench1+

Q-Bench1_[VAL/TEST]

MCQ

A-Bench+

A-Bench_[VAL/TEST]

MCQ

DUDE+

DUDE

VQA (MTI)

SlideVQA+

SLIDEVQA
SLIDEVQA_MINI

VQA (MTI)

TaskMeAnything ImageQA Random+

TaskMeAnything_v1_imageqa_random

MCQ

MMMB and Multilingual MMBench+

MMMB_[ar/cn/en/pt/ru/tr]
MMBench_dev_[ar/cn/en/pt/ru/tr]
MMMB
MTL_MMBench_DEV
PS: MMMB & MTL_MMBench_DEV
are all-in-one names for 6 langs

MCQ

A-OKVQA+

A-OKVQA

MCQ

MuirBench

MUIRBench

MCQ

GMAI-MMBench+

GMAI-MMBench_VAL

MCQ

TableVQABench+

TableVQABench

VQA

备注

* 只提供了部分模型上的测试结果,剩余模型无法在 zero-shot 设定下测试出合理的精度

+ 尚未提供这个评测集的测试结果

- VLMEvalKit 仅支持这个评测集的推理,无法输出最终精度

视频多模态评测集#

数据集

数据集名称

任务

MMBench-Video

MMBench-Video

VQA

MVBench

MVBench_MP4

MCQ

MLVU

MLVU

MCQ & VQA

TempCompass

TempCompass

MCQ & Y/N & Caption

LongVideoBench

LongVideoBench

MCQ

Video-MME

Video-MME

MCQ

4. RAGEval评测后端支持的数据集#

CMTEB 评测数据集#

名称

Hub链接

描述

类型

类别

测试样本数量

T2Retrieval

C-MTEB/T2Retrieval

T2Ranking:一个大规模的中文段落排序基准

检索

s2p

24,832

MMarcoRetrieval

C-MTEB/MMarcoRetrieval

mMARCO是MS MARCO段落排序数据集的多语言版本

检索

s2p

7,437

DuRetrieval

C-MTEB/DuRetrieval

一个大规模的中文网页搜索引擎段落检索基准

检索

s2p

4,000

CovidRetrieval

C-MTEB/CovidRetrieval

COVID-19新闻文章

检索

s2p

949

CmedqaRetrieval

C-MTEB/CmedqaRetrieval

在线医疗咨询文本

检索

s2p

3,999

EcomRetrieval

C-MTEB/EcomRetrieval

从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集

检索

s2p

1,000

MedicalRetrieval

C-MTEB/MedicalRetrieval

从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集

检索

s2p

1,000

VideoRetrieval

C-MTEB/VideoRetrieval

从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集

检索

s2p

1,000

T2Reranking

C-MTEB/T2Reranking

T2Ranking:一个大规模的中文段落排序基准

重新排序

s2p

24,382

MMarcoReranking

C-MTEB/MMarco-reranking

mMARCO是MS MARCO段落排序数据集的多语言版本

重新排序

s2p

7,437

CMedQAv1

C-MTEB/CMedQAv1-reranking

中文社区医疗问答

重新排序

s2p

2,000

CMedQAv2

C-MTEB/CMedQAv2-reranking

中文社区医疗问答

重新排序

s2p

4,000

Ocnli

C-MTEB/OCNLI

原始中文自然语言推理数据集

配对分类

s2s

3,000

Cmnli

C-MTEB/CMNLI

中文多类别自然语言推理

配对分类

s2s

139,000

CLSClusteringS2S

C-MTEB/CLSClusteringS2S

从CLS数据集中聚类标题。基于主要类别的13个集合的聚类。

聚类

s2s

10,000

CLSClusteringP2P

C-MTEB/CLSClusteringP2P

从CLS数据集中聚类标题+摘要。基于主要类别的13个集合的聚类。

聚类

p2p

10,000

ThuNewsClusteringS2S

C-MTEB/ThuNewsClusteringS2S

从THUCNews数据集中聚类标题

聚类

s2s

10,000

ThuNewsClusteringP2P

C-MTEB/ThuNewsClusteringP2P

从THUCNews数据集中聚类标题+摘要

聚类

p2p

10,000

ATEC

C-MTEB/ATEC

ATEC NLP句子对相似性竞赛

STS

s2s

20,000

BQ

C-MTEB/BQ

银行问题语义相似性

STS

s2s

10,000

LCQMC

C-MTEB/LCQMC

大规模中文问题匹配语料库

STS

s2s

12,500

PAWSX

C-MTEB/PAWSX

翻译的PAWS评测对

STS

s2s

2,000

STSB

C-MTEB/STSB

将STS-B翻译成中文

STS

s2s

1,360

AFQMC

C-MTEB/AFQMC

蚂蚁金服问答匹配语料库

STS

s2s

3,861

QBQTC

C-MTEB/QBQTC

QQ浏览器查询标题语料库

STS

s2s

5,000

TNews

C-MTEB/TNews-classification

新闻短文本分类

分类

s2s

10,000

IFlyTek

C-MTEB/IFlyTek-classification

应用描述的长文本分类

分类

s2s

2,600

Waimai

C-MTEB/waimai-classification

外卖平台用户评论的情感分析

分类

s2s

1,000

OnlineShopping

C-MTEB/OnlineShopping-classification

在线购物网站用户评论的情感分析

分类

s2s

1,000

MultilingualSentiment

C-MTEB/MultilingualSentiment-classification

一组按三类分组的多语言情感数据集--正面、中立、负面

分类

s2s

3,000

JDReview

C-MTEB/JDReview-classification

iPhone的评论

分类

s2s

533

对于检索任务,从整个语料库中抽样100,000个候选项(包括真实值),以降低推理成本。

MTEB 评测数据集#

参见

参考:MTEB相关任务

CLIP-Benchmark#

数据集名称

任务类型

备注

muge

zeroshot_retrieval

中文多模态图文数据集

flickr30k

zeroshot_retrieval

flickr8k

zeroshot_retrieval

mscoco_captions

zeroshot_retrieval

mscoco_captions2017

zeroshot_retrieval

imagenet1k

zeroshot_classification

imagenetv2

zeroshot_classification

imagenet_sketch

zeroshot_classification

imagenet-a

zeroshot_classification

imagenet-r

zeroshot_classification

imagenet-o

zeroshot_classification

objectnet

zeroshot_classification

fer2013

zeroshot_classification

voc2007

zeroshot_classification

voc2007_multilabel

zeroshot_classification

sun397

zeroshot_classification

cars

zeroshot_classification

fgvc_aircraft

zeroshot_classification

mnist

zeroshot_classification

stl10

zeroshot_classification

gtsrb

zeroshot_classification

country211

zeroshot_classification

renderedsst2

zeroshot_classification

vtab_caltech101

zeroshot_classification

vtab_cifar10

zeroshot_classification

vtab_cifar100

zeroshot_classification

vtab_clevr_count_all

zeroshot_classification

vtab_clevr_closest_object_distance

zeroshot_classification

vtab_diabetic_retinopathy

zeroshot_classification

vtab_dmlab

zeroshot_classification

vtab_dsprites_label_orientation

zeroshot_classification

vtab_dsprites_label_x_position

zeroshot_classification

vtab_dsprites_label_y_position

zeroshot_classification

vtab_dtd

zeroshot_classification

vtab_eurosat

zeroshot_classification

vtab_kitti_closest_vehicle_distance

zeroshot_classification

vtab_flowers

zeroshot_classification

vtab_pets

zeroshot_classification

vtab_pcam

zeroshot_classification

vtab_resisc45

zeroshot_classification

vtab_smallnorb_label_azimuth

zeroshot_classification

vtab_smallnorb_label_elevation

zeroshot_classification

vtab_svhn

zeroshot_classification