VLMEvalKit#

备注

多模态评测推荐优先使用 Native 后端，已原生支持 OCRBench、MMMU、MMBench、MathVista、ChartQA、DocVQA 等主流评测集，详见 VLM 评测集。VLMEvalKit 后端主要服务于已有 VLMEvalKit 工作流的用户。两个后端因 prompt 模板、答案抽取规则、judge 逻辑不同，结果可能存在差异，对比实验时请保持后端一致。

为便于使用VLMEvalKit 评测后端，我们基于VLMEvalKit源码做了定制，命名为ms-vlmeval，该版本在原版基础上对评测任务的配置和执行进行了封装，并支持pypi安装方式，使得用户可以通过EvalScope发起轻量化的VLMEvalKit评测任务。同时，我们支持基于OpenAI API格式的接口评测任务，您可以使用ms-swift、vLLM、LMDeploy、Ollama等模型服务，部署多模态模型服务。

1. 环境准备#

# 安装额外依赖
pip install evalscope[vlmeval] -U

2. 数据准备#

在加载数据集时，若本地不存在该数据集文件，将会自动下载数据集到 ~/LMUData/ 目录下。

目前支持的数据集有：

名称	备注
A-Bench_TEST, A-Bench_VAL
AI2D_TEST, AI2D_TEST_NO_MASK
AesBench_TEST, AesBench_VAL
BLINK
CCBench
COCO_VAL
ChartQA_TEST
DUDE, DUDE_MINI
DocVQA_TEST, DocVQA_VAL	DocVQA_TEST没有提供答案，使用DocVQA_VAL进行自动评测
GMAI_mm_bench_VAL
HallusionBench
InfoVQA_TEST, InfoVQA_VAL	InfoVQA_TEST没有提供答案，使用InfoVQA_VAL进行自动评测
LLaVABench
MLLMGuard_DS
MMBench-Video
MMBench_DEV_CN, MMBench_DEV_CN_V11
MMBench_DEV_EN, MMBench_DEV_EN_V11
MMBench_TEST_CN, MMBench_TEST_CN_V11	MMBench_TEST_CN没有提供答案
MMBench_TEST_EN, MMBench_TEST_EN_V11	MMBench_TEST_EN没有提供答案
MMBench_dev_ar, MMBench_dev_cn, MMBench_dev_en,
MMBench_dev_pt, MMBench_dev_ru, MMBench_dev_tr
MMDU
MME
MMLongBench_DOC
MMMB, MMMB_ar, MMMB_cn, MMMB_en,
MMMB_pt, MMMB_ru, MMMB_tr
MMMU_DEV_VAL, MMMU_TEST
MMStar
MMT-Bench_ALL, MMT-Bench_ALL_MI,
MMT-Bench_VAL, MMT-Bench_VAL_MI
MMVet
MTL_MMBench_DEV
MTVQA_TEST
MVBench, MVBench_MP4
MathVision, MathVision_MINI, MathVista_MINI
OCRBench
OCRVQA_TEST, OCRVQA_TESTCORE
POPE
Q-Bench1_TEST, Q-Bench1_VAL
RealWorldQA
SEEDBench2, SEEDBench2_Plus, SEEDBench_IMG
SLIDEVQA, SLIDEVQA_MINI
ScienceQA_TEST, ScienceQA_VAL
TaskMeAnything_v1_imageqa_random
TextVQA_VAL
VCR_EN_EASY_100, VCR_EN_EASY_500, VCR_EN_EASY_ALL
VCR_EN_HARD_100, VCR_EN_HARD_500, VCR_EN_HARD_ALL
VCR_ZH_EASY_100, VCR_ZH_EASY_500, VCR_ZH_EASY_ALL
VCR_ZH_HARD_100, VCR_ZH_HARD_500, VCR_ZH_HARD_ALL
Video-MME

备注

数据集的详细信息可以参考VLMEvalKit支持的图文多模态评测集。

您可以使用以下方式，来查看数据集的名称列表：

from evalscope.backend.vlm_eval_kit import VLMEvalKitBackendManager
print(f'** All models from VLMEvalKit backend: {VLMEvalKitBackendManager.list_supported_datasets()}')

3. 模型评测#

模型评测有两种方式可以选择，一种是部署模型服务评测，另一种是本地模型推理评测。具体如下：

方式1. 部署模型服务评测#

模型部署#

下面介绍四种方式部署模型服务：

vLLM 部署

参考vLLM 教程 for more details.

支持的模型列表

安装vLLM

pip install vllm -U

部署模型服务

VLLM_USE_MODELSCOPE=True CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2.5-VL-3B-Instruct --port 8000 --trust-remote-code --max_model_len 4096 --served-model-name Qwen2.5-VL-3B-Instruct

小技巧

如遇到ValueError: At most 1 image(s) may be provided in one request错误，可尝试将设置--limit-mm-per-prompt "image=5"参数，并可以将image设置为更大的值。

ms-swift部署

使用ms-swift部署模型服务，具体可参考：ms-swift部署指南。

安装ms-swift

pip install ms-swift -U

部署模型服务

CUDA_VISIBLE_DEVICES=0 swift deploy --model Qwen/Qwen2.5-VL-3B-Instruct --port 8000

LMDeploy 部署

参考 LMDeploy 教程.

安装LMDeploy

pip install lmdeploy -U

部署模型服务

CUDA_VISIBLE_DEVICES=0 lmdeploy serve api_server Qwen-VL-Chat --server-port 8000

Ollama 部署

使用Ollama一键运行ModelScope上托管的模型，参考文档

ollama run modelscope.cn/IAILabs/Qwen2.5-VL-7B-Instruct-GGUF

配置模型评测参数#

编写配置

yaml 配置文件

work_dir: outputs
eval_backend: VLMEvalKit
eval_config:
  model: 
    - type: Qwen2.5-VL-3B-Instruct
      name: CustomAPIModel 
      api_base: http://localhost:8000/v1/chat/completions
      key: EMPTY
      temperature: 0.0
      img_size: -1
      max_tokens: 1024
      video_llm: false
  data:
    - SEEDBench_IMG
    - ChartQA_TEST
  mode: all
  limit: 20
  reuse: false
  nproc: 16
  judge: exact_matching

TaskConfig 字典

from evalscope import TaskConfig

task_cfg_dict = TaskConfig(
    work_dir='outputs',
    eval_backend='VLMEvalKit',
    eval_config={
        'data': ['SEEDBench_IMG', 'ChartQA_TEST'],
        'limit': 20,
        'mode': 'all',
        'model': [ 
            {'api_base': 'http://localhost:8000/v1/chat/completions',
            'key': 'EMPTY',
            'name': 'CustomAPIModel',
            'temperature': 0.0,
            'type': 'Qwen2.5-VL-3B-Instruct',
            'img_size': -1,
            'video_llm': False,
            'max_tokens': 1024,}
            ],
        'reuse': False,
        'nproc': 16,
        'judge': 'exact_matching'}
)

方式2. 本地模型推理评测#

不启动模型服务，直接配置模型评测参数，在本地进行推理

配置模型评测参数#

yaml 配置文件

eval_openai_api.json#

work_dir: outputs
eval_backend: VLMEvalKit
eval_config:
  model: 
    - name: qwen_chat
      model_path: models/Qwen-VL-Chat
  data:
    - SEEDBench_IMG
    - ChartQA_TEST
  mode: all
  limit: 20
  reuse: false
  work_dir: outputs
  nproc: 16

TaskConfig 字典

from evalscope import TaskConfig

task_cfg_dict = TaskConfig(
    work_dir='outputs',
    eval_backend='VLMEvalKit',
    eval_config=
        {'data': ['SEEDBench_IMG', 'ChartQA_TEST'],
        'limit': 20,
        'mode': 'all',
        'model': [ 
            {'name': 'qwen_chat',
            'model_path': 'models/Qwen-VL-Chat',
            'video_llm': False,
            'max_new_tokens': 1024,
            }
          ],
        'reuse': False}
 )

参数说明#

eval_backend：默认值为 VLMEvalKit，表示使用 VLMEvalKit 评测后端。
work_dir：字符串，保存评测结果、日志和摘要的目录。默认值为 outputs。
eval_config：字典，包含以下字段：
- data：列表，参考目前支持的数据集
- model：字典列表，每个字典可以指定以下字段：
  - 使用远程API调用时：
    - api_base：模型服务的 URL。
    - type：API 请求模型名称，例如 Qwen2.5-VL-3B-Instruct。
    - name：固定值，必须为 CustomAPIModel。
    - key：模型 API 的 OpenAI API 密钥，默认值为 EMPTY。
    - temperature：模型推理的温度系数，默认值为 0.0。
    - max_tokens：模型推理的最大 token 数，默认值为 2048。
    - img_size：模型推理的图像大小，默认值为 -1，表示使用原始大小；设置为其他值，例如 224，表示将图像缩放到 224x224 大小。
    - video_llm：布尔值，默认为False，在评测视频数据集时，如需传递 video_url 参数，请设置为 True。
  - 使用本地模型推理时：
    - name：模型名称，参考VLMEvalKit支持的模型。
    - model_path等其余参数：参考VLMEvalKit支持的模型参数
- mode：选项: ['all', 'infer']，all包括推理和评测；infer仅进行推理。
- limit：整数，评测的数据数量，默认值为 None，表示运行所有示例。
- reuse：布尔值，是否重用评测结果，否则将删除所有评测临时文件。
  
  备注
  
  对与ms-vlmeval>=0.0.11参数rerun 更名为reuse，默认值为False。设置为True时需要在task_cfg_dict中添加use_cache来指定使用的缓存目录。
- nproc：整数，并行调用 API 的数量。
- nframe：整数，视频数据集的视频帧数，默认值为 8，
- fps：整数，视频数据集的帧率，默认值为 -1，表示使用nframe；设置为大于0，则使用fps来计算视频帧数。
- use_subtitle：布尔值，视频数据集是否使用字幕，默认值为 False。

(可选) 部署裁判员模型#

部署本地语言模型作为评判 / 选择提取器，同样使用ms-swift部署模型服务，具体可参考：ms-swift LLM 部署指南。

备注

在未部署裁判员模型模型时，将使用后处理+精确匹配进行评判；且必须配置裁判员模型环境变量才能正确调用模型。

部署裁判员模型#

# 部署qwen2-7b作为裁判员
CUDA_VISIBLE_DEVICES=0 swift deploy --model_type qwen2-7b-instruct --model_id_or_path models/Qwen2-7B-Instruct --port 8866

配置裁判员模型环境变量#

在yaml配置文件的eval_config中增加如下配置：

eval_config:
  # ... 其他配置
  OPENAI_API_KEY: EMPTY 
  OPENAI_API_BASE: http://127.0.0.1:8866/v1/chat/completions # 裁判员模型的 api_base
  LOCAL_LLM: qwen2-7b-instruct #裁判员模型的 model_id

4. 执行评测任务#

小心

若想让模型重新进行推理，需清空outputs文件夹下的模型预测结果再运行脚本。因为之前的预测结果不会自动清除，若存在该结果会跳过推理阶段，直接对结果进行评测。

配置好配置文件后，运行以下脚本即可

eval_openai_api.py#

from evalscope.run import run_task

def run_eval():
    # 选项 1: python 字典
    task_cfg = task_cfg_dict

    # 选项 2: yaml 配置文件
    # task_cfg = 'eval_openai_api.yaml'

    run_task(task_cfg=task_cfg)

run_eval()

运行以下命令：

python eval_openai_api.py