OCRBench-v2#

概述#

OCRBench v2 是一个大规模双语文本中心基准测试,包含最全面的 OCR 任务(比 OCRBench v1 多出 4 倍),涵盖 31 种多样化场景,包括街景、收据、公式、图表等。

任务描述#

  • 任务类型:光学字符识别与文档理解

  • 输入:图像 + OCR/文档问题

  • 输出:文本识别、提取或分析结果

  • 语言:英语和中文(双语)

核心特性#

  • 10,000 个人工验证的问题-答案对

  • 31 种多样化场景(街景、收据、公式、图表等)

  • 高比例的困难样本

  • 全面的 OCR 任务覆盖

  • 支持双语(英语和中文)评估

评估说明#

  • 默认配置使用 0-shot 评估

  • 在测试集上进行评估

  • 依赖包:apted、distance、Levenshtein、lxml、Polygon3、zss

  • 使用简单准确率(accuracy)作为评估指标

属性#

属性

基准测试名称

ocr_bench_v2

数据集ID

evalscope/OCRBench_v2

论文

N/A

标签

Knowledge, MultiModal, QA

指标

acc

默认示例数

0-shot

评估分割

test

数据统计#

指标

总样本数

10,000

提示词长度(平均)

155.62 字符

提示词长度(最小/最大)

6 / 1863 字符

各子集统计信息:

子集

样本数

提示词平均长度

提示词最小长度

提示词最大长度

APP agent en

300

36.9

16

84

ASCII art classification en

200

174.62

162

193

key information extraction cn

400

32.45

9

162

key information extraction en

400

506.23

327

1261

key information mapping en

300

664.02

429

1647

VQA with position en

300

557.69

539

612

chart parsing en

400

67

67

67

cognition VQA cn

200

15.91

6

48

cognition VQA en

800

44.73

14

179

diagram QA en

300

118.23

54

356

document classification en

200

314

314

314

document parsing cn

300

43

43

43

document parsing en

400

51

51

51

formula recognition cn

200

19

19

19

formula recognition en

400

58.39

53

60

handwritten answer extraction cn

200

39.75

22

60

math QA en

300

119

119

119

full-page OCR cn

200

31

31

31

full-page OCR en

200

91

91

91

reasoning VQA en

600

80.45

26

256

reasoning VQA cn

400

163.96

62

633

fine-grained text recognition en

200

155.63

152

156

science QA en

300

387.54

159

1863

table parsing cn

300

139.4

79

211

table parsing en

400

65.39

57

134

text counting en

200

113.87

101

127

text grounding en

200

361.5

357

379

text recognition en

800

37.26

29

104

text spotting en

200

446

446

446

text translation cn

400

230.88

96

291

图像统计信息:

指标

总图像数

10,000

每样本图像数

最小: 1, 最大: 1, 平均: 1

分辨率范围

19x10 - 3912x21253

格式

jpeg

样例示例#

子集: APP agent en

{
  "input": [
    {
      "id": "51292e32",
      "content": [
        {
          "text": "What is the wrong answer 2?"
        },
        {
          "image": "[BASE64_IMAGE: jpeg, ~121.7KB]"
        }
      ]
    }
  ],
  "target": "[\"enabled\", \"on\"]",
  "id": 0,
  "group_id": 0,
  "subset_key": "APP agent en",
  "metadata": {
    "question": "What is the wrong answer 2?",
    "answers": [
      "enabled",
      "on"
    ],
    "eval": "None",
    "dataset_name": "rico",
    "type": "APP agent en",
    "bbox": null,
    "bbox_list": null,
    "content": null
  }
}

提示模板#

提示模板:

{question}

使用方法#

使用 CLI#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets ocr_bench_v2 \
    --limit 10  # 正式评估时请删除此行

使用 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['ocr_bench_v2'],
    dataset_args={
        'ocr_bench_v2': {
            # subset_list: ['APP agent en', 'ASCII art classification en', 'key information extraction cn']  # 可选,用于评估特定子集
        }
    },
    limit=10,  # 正式评估时请删除此行
)

run_task(task_cfg=task_cfg)