VLMEvalKit#
备注
更完整的说明和及时更新的数据集列表,请参考详细说明
图文多模态评测集#
使用的缩写:
MCQ: 单项选择题;Y/N: 正误判断题;MTT: 多轮对话评测;MTI: 多图输入评测
数据集 |
名称 |
任务 |
|---|---|---|
MMBench Series: |
MMBench_DEV_[EN/CN] |
MCQ |
MMStar |
MCQ |
|
MME |
Y/N |
|
SEEDBench_IMG |
MCQ |
|
MMVet |
VQA |
|
MMMU_[DEV_VAL/TEST] |
MCQ |
|
MathVista_MINI |
VQA |
|
ScienceQA_[VAL/TEST] |
MCQ |
|
COCO_VAL |
Caption |
|
HallusionBench |
Y/N |
|
OCRVQA_[TESTCORE/TEST] |
VQA |
|
TextVQA_VAL |
VQA |
|
ChartQA_TEST |
VQA |
|
AI2D_[TEST/TEST_NO_MASK] |
MCQ |
|
LLaVABench |
VQA |
|
DocVQA_[VAL/TEST] |
VQA |
|
InfoVQA_[VAL/TEST] |
VQA |
|
OCRBench |
VQA |
|
RealWorldQA |
MCQ |
|
POPE |
Y/N |
|
CORE_MM (MTI) |
VQA |
|
MMT-Bench_[VAL/ALL] |
MCQ (MTI) |
|
MLLMGuard_DS |
VQA |
|
AesBench_[VAL/TEST] |
MCQ |
|
VCR-wiki + |
VCR_[EN/ZH]_[EASY/HARD]_[ALL/500/100] |
VQA |
MMLongBench_DOC |
VQA (MTI) |
|
BLINK |
MCQ (MTI) |
|
MathVision |
VQA |
|
MTVQA_TEST |
VQA |
|
MMDU+ |
MMDU |
VQA (MTT, MTI) |
Q-Bench1_[VAL/TEST] |
MCQ |
|
A-Bench_[VAL/TEST] |
MCQ |
|
DUDE+ |
DUDE |
VQA (MTI) |
SLIDEVQA |
VQA (MTI) |
|
TaskMeAnything_v1_imageqa_random |
MCQ |
|
MMMB_[ar/cn/en/pt/ru/tr] |
MCQ |
|
A-OKVQA |
MCQ |
|
MUIRBench |
MCQ |
|
GMAI-MMBench_VAL |
MCQ |
|
TableVQABench |
VQA |
备注
* 只提供了部分模型上的测试结果,剩余模型无法在 zero-shot 设定下测试出合理的精度
+ 尚未提供这个评测集的测试结果
- VLMEvalKit 仅支持这个评测集的推理,无法输出最终精度
视频多模态评测集#
数据集 |
数据集名称 |
任务 |
|---|---|---|
MMBench-Video |
VQA |
|
MVBench_MP4 |
MCQ |
|
MLVU |
MCQ & VQA |
|
TempCompass |
MCQ & Y/N & Caption |
|
LongVideoBench |
MCQ |
|
Video-MME |
MCQ |