POPE#

概述#

POPE(Polling-based Object Probing Evaluation)是一个专门用于评估大视觉语言模型(LVLMs)中物体幻觉现象的基准测试。它通过是非题(yes/no questions)来检验模型能否准确识别图像中存在的物体。

任务描述#

  • 任务类型:物体幻觉检测(是非问答)

  • 输入:图像 + 问题 “图像中是否有 [物体]?”

  • 输出:YES 或 NO

  • 重点:衡量准确率与幻觉率

核心特性#

  • 三种采样策略:随机(random)、热门(popular)、对抗(adversarial)

  • 测试模型对不存在物体的错误肯定(即幻觉)

  • 基于 MSCOCO 图像构建

  • 采用简单的是非题格式,便于客观评估

  • 衡量模型回答与视觉内容的一致性

评估说明#

  • 默认配置使用 0-shot 评估

  • 五个指标:准确率(accuracy)、精确率(precision)、召回率(recall)、F1 分数(F1 score)、yes_ratio

  • F1 分数为主要聚合指标

  • 包含三个子集:popularadversarialrandom

  • popularadversarial 子集更具挑战性

  • yes_ratio 反映模型倾向于回答 “yes” 的程度

属性#

属性

基准测试名称

pope

数据集ID

lmms-lab/POPE

论文

N/A

标签

Hallucination, MultiModal, Yes/No

指标

accuracy, precision, recall, f1_score, yes_ratio

默认示例数量

0-shot

评估划分

N/A

聚合方式

f1

数据统计#

指标

总样本数

9,000

提示词长度(平均)

79.4 字符

提示词长度(最小/最大)

75 / 87 字符

各子集统计数据:

子集

样本数

提示词平均长度

提示词最小长度

提示词最大长度

popular

3,000

79.27

75

87

adversarial

3,000

79.36

75

87

random

3,000

79.59

75

87

图像统计信息:

指标

总图像数

9,000

每样本图像数

最小: 1, 最大: 1, 平均: 1

分辨率范围

500x243 - 640x640

格式

jpeg

样例示例#

子集: popular

{
  "input": [
    {
      "id": "8847a5a3",
      "content": [
        {
          "text": "Is there a snowboard in the image?\nPlease answer YES or NO without an explanation."
        },
        {
          "image": "[BASE64_IMAGE: png, ~87.2KB]"
        }
      ]
    }
  ],
  "target": "YES",
  "id": 0,
  "group_id": 0,
  "metadata": {
    "id": "3000",
    "answer": "YES",
    "category": "popular",
    "question_id": "1"
  }
}

提示模板#

提示模板:

{question}
Please answer YES or NO without an explanation.

使用方法#

使用 CLI#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets pope \
    --limit 10  # 正式评估时请删除此行

使用 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['pope'],
    dataset_args={
        'pope': {
            # subset_list: ['popular', 'adversarial', 'random']  # 可选,用于评估特定子集
        }
    },
    limit=10,  # 正式评估时请删除此行
)

run_task(task_cfg=task_cfg)