SimpleVQA#

概述#

SimpleVQA 是首个全面的多模态基准测试，用于评估多模态大语言模型（MLLMs）回答自然语言简短问题时的事实性能力。该基准包含高质量、具有挑战性的问题，并配有静态且不受时间影响的标准答案。

任务描述#

任务类型：事实性视觉问答（Factual Visual Question Answering）
输入：图像 + 事实性问题
输出：简短的事实性答案
领域：事实性、视觉推理、知识回忆

主要特点#

覆盖多种任务和场景
高质量、具有挑战性的问题
静态且不受时间影响的标准答案（无时间依赖性）
评估方法直接明了
测试模型真实的事实性知识，而非仅依赖模式匹配

评估说明#

默认使用 test 数据划分进行评估
主要指标：基于大语言模型（LLM）评判器的 准确率（Accuracy）
三级评分标准：CORRECT（正确）、INCORRECT（错误）、NOT_ATTEMPTED（未作答）
LLM 评判器采用详细的评分规则进行语义匹配
包含丰富的元数据，如语言、来源和原子事实

属性#

属性	值
基准测试名称	`simple_vqa`
数据集ID	m-a-p/SimpleVQA
论文	N/A
标签	`MultiModal`, `QA`, `Reasoning`
指标	`acc`
默认示例数	0-shot
评估划分	`test`

数据统计#

指标	值
总样本数	2,025
提示词长度（平均）	56.22 字符
提示词长度（最小/最大）	27 / 1015 字符

图像统计信息：

指标	值
图像总数	2,025
每样本图像数	最小: 1, 最大: 1, 平均: 1
分辨率范围	106x56 - 5119x3413
格式	jpeg, png

样例示例#

子集: default

{
  "input": [
    {
      "id": "4340fc24",
      "content": [
        {
          "text": "Answer the question:\n\n图中所示穴位所属的经脉是什么？"
        },
        {
          "image": "[BASE64_IMAGE: jpeg, ~26.5KB]"
        }
      ]
    }
  ],
  "target": "足阳明胃经",
  "id": 0,
  "group_id": 0,
  "metadata": {
    "data_id": 0,
    "image_description": "",
    "language": "CN",
    "original_category": "中华文化_中医",
    "source": "https://baike.baidu.com/item/%E4%BC%8F%E5%85%94%E7%A9%B4/3503684#:~:text\\u003d%E4%BA%BA%E4%BD%93%E7%A9%B4%E4%BD%8D%E5%90%8D%E4%BC%8F%E5%85%94%E7%A9%B4F%C3%BA%20t%C3%B9%EF%BC%88ST32%EF%BC%89%E5%B1%9E%E8%B6%B3%E9%98%B3%E6%98%8E%E8%83%83%E7%BB%8 ... [TRUNCATED] ... 4%BE%A7%E7%AB%AF%E7%9A%84%E8%BF%9E%E7%BA%BF%E4%B8%8A%EF%BC%8C%E9%AB%8C%E9%AA%A8%E4%B8%8A%E7%BC%98%E4%B8%8A6%E5%AF%B8%E3%80%82%E4%BC%8F%E5%85%94%E5%88%AB%E5%90%8D%E5%A4%96%E4%B8%98%E3%80%81%E5%A4%96%E5%8B%BE%EF%BC%8C%E4%BD%8D%E4%BA%8E%E5%A4%A7",
    "atomic_question": "图中所示穴位的名称是什么？",
    "atomic_fact": "伏兔"
  }
}

注：部分内容因显示需要已被截断。

提示模板#

提示模板：

Answer the question:

{question}

使用方法#

使用 CLI#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets simple_vqa \
    --limit 10  # 正式评估时请删除此行

使用 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['simple_vqa'],
    limit=10,  # 正式评估时请删除此行
)

run_task(task_cfg=task_cfg)