Maritime-OCR-Bench#

概述#

Maritime-OCR-Bench 是一个全面的评估基准,用于衡量多模态大模型在 OCR 相关任务上的能力。当前发布的数据集包含 1,888 个经过人工精心整理的样本,涵盖五种任务类型。

任务类型#

  • VQA:针对文档/场景图像的视觉问答

  • IE:要求严格 JSON 格式输出的信息抽取

  • parsing:从图像中进行文本识别与解析

  • json1:采用 JSON v1 结构化格式的文本检测

  • json2:采用 JSON v2 结构化格式的文本检测

评估指标#

每种任务类型采用专门的评分方法:

  • VQA/parsing:多维文本相似度(编辑距离、字符级 F1、最长公共子序列 F1、表格感知相似度)

  • IE:文本覆盖率 + JSON 严格性(0.5 * coverage + 0.5 * json_strict)

  • json1/json2:DIoU 布局得分 + 文本得分(0.7 * diou + 0.3 * text)

属性#

属性

基准测试名称

maritime_ocr_bench

数据集ID

HiDolphin/MaritimeOCRBench

论文

N/A

标签

MultiModal, QA

指标

score

默认示例数

0-shot

评估划分

test

数据统计#

指标

总样本数

1,888

提示词长度(平均)

102.91 字符

提示词长度(最小/最大)

23 / 288 字符

各子集统计数据:

子集

样本数

提示词平均长度

提示词最小长度

提示词最大长度

IE

471

23

23

23

VQA

471

39.65

28

141

parsing

472

80

80

80

json1

237

256.1

248

288

json2

237

279.9

248

288

图像统计数据:

指标

图像总数

1,888

每样本图像数

最小: 1, 最大: 1, 平均: 1

分辨率范围

108x50 - 4030x4075

格式

jpeg, png

样例示例#

子集: IE

{
  "input": [
    {
      "id": "1d6ce119",
      "content": [
        {
          "text": "请提取所有关键信息,并以 JSON 格式返回。"
        },
        {
          "image": "[BASE64_IMAGE: png, ~550.9KB]"
        }
      ]
    }
  ],
  "target": "{\n  \"Document ID\": \"WiCE Error Message Description\",\n  \"Revision\": \"REV 1\",\n  \"Date\": \"2024-09-12\",\n  \"Company_Logo_Text\":\"WIN GD\",\n  \"Error Messages\": [\n    {\n      \"ID Number\": \"COFD-52\",\n      \"Designation\": \"Fuel Pump Control Signal #2 Fa ... [TRUNCATED 1668 chars] ... nt must be within 4 ~ 20mA.\\n• If necessary, the sensor can be replaced with new one (Caution: before dismantling, do depressurize rail)\"\n    }\n  ],\n  \"Footer\": \"T_PC-Drawing_Portrait | Release: 3.10 (2024-05-15)\",\n  \"Page\": \"Page 20 of 83\"\n}",
  "id": 0,
  "group_id": 0,
  "subset_key": "IE",
  "metadata": {
    "task_type": "IE",
    "prompt": "<image>请提取所有关键信息,并以 JSON 格式返回。",
    "images": [
      "images/580968569085497344_f33f02a81a.png"
    ]
  }
}

提示模板#

提示模板:

{question}

使用方法#

使用 CLI#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets maritime_ocr_bench \
    --limit 10  # 正式评估时请删除此行

使用 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['maritime_ocr_bench'],
    dataset_args={
        'maritime_ocr_bench': {
            # subset_list: ['IE', 'VQA', 'parsing']  # 可选,用于评估特定子集
        }
    },
    limit=10,  # 正式评估时请删除此行
)

run_task(task_cfg=task_cfg)