Maritime-OCR-Bench#
概述#
Maritime-OCR-Bench 是一个全面的评估基准,用于衡量多模态大模型在 OCR 相关任务上的能力。当前发布的数据集包含 1,888 个经过人工精心整理的样本,涵盖五种任务类型。
任务类型#
VQA:针对文档/场景图像的视觉问答
IE:要求严格 JSON 格式输出的信息抽取
parsing:从图像中进行文本识别与解析
json1:采用 JSON v1 结构化格式的文本检测
json2:采用 JSON v2 结构化格式的文本检测
评估指标#
每种任务类型采用专门的评分方法:
VQA/parsing:多维文本相似度(编辑距离、字符级 F1、最长公共子序列 F1、表格感知相似度)
IE:文本覆盖率 + JSON 严格性(0.5 * coverage + 0.5 * json_strict)
json1/json2:DIoU 布局得分 + 文本得分(0.7 * diou + 0.3 * text)
属性#
属性 |
值 |
|---|---|
基准测试名称 |
|
数据集ID |
|
论文 |
N/A |
标签 |
|
指标 |
|
默认示例数 |
0-shot |
评估划分 |
|
数据统计#
指标 |
值 |
|---|---|
总样本数 |
1,888 |
提示词长度(平均) |
102.91 字符 |
提示词长度(最小/最大) |
23 / 288 字符 |
各子集统计数据:
子集 |
样本数 |
提示词平均长度 |
提示词最小长度 |
提示词最大长度 |
|---|---|---|---|---|
|
471 |
23 |
23 |
23 |
|
471 |
39.65 |
28 |
141 |
|
472 |
80 |
80 |
80 |
|
237 |
256.1 |
248 |
288 |
|
237 |
279.9 |
248 |
288 |
图像统计数据:
指标 |
值 |
|---|---|
图像总数 |
1,888 |
每样本图像数 |
最小: 1, 最大: 1, 平均: 1 |
分辨率范围 |
108x50 - 4030x4075 |
格式 |
jpeg, png |
样例示例#
子集: IE
{
"input": [
{
"id": "1d6ce119",
"content": [
{
"text": "请提取所有关键信息,并以 JSON 格式返回。"
},
{
"image": "[BASE64_IMAGE: png, ~550.9KB]"
}
]
}
],
"target": "{\n \"Document ID\": \"WiCE Error Message Description\",\n \"Revision\": \"REV 1\",\n \"Date\": \"2024-09-12\",\n \"Company_Logo_Text\":\"WIN GD\",\n \"Error Messages\": [\n {\n \"ID Number\": \"COFD-52\",\n \"Designation\": \"Fuel Pump Control Signal #2 Fa ... [TRUNCATED 1668 chars] ... nt must be within 4 ~ 20mA.\\n• If necessary, the sensor can be replaced with new one (Caution: before dismantling, do depressurize rail)\"\n }\n ],\n \"Footer\": \"T_PC-Drawing_Portrait | Release: 3.10 (2024-05-15)\",\n \"Page\": \"Page 20 of 83\"\n}",
"id": 0,
"group_id": 0,
"subset_key": "IE",
"metadata": {
"task_type": "IE",
"prompt": "<image>请提取所有关键信息,并以 JSON 格式返回。",
"images": [
"images/580968569085497344_f33f02a81a.png"
]
}
}
提示模板#
提示模板:
{question}
使用方法#
使用 CLI#
evalscope eval \
--model YOUR_MODEL \
--api-url OPENAI_API_COMPAT_URL \
--api-key EMPTY_TOKEN \
--datasets maritime_ocr_bench \
--limit 10 # 正式评估时请删除此行
使用 Python#
from evalscope import run_task
from evalscope.config import TaskConfig
task_cfg = TaskConfig(
model='YOUR_MODEL',
api_url='OPENAI_API_COMPAT_URL',
api_key='EMPTY_TOKEN',
datasets=['maritime_ocr_bench'],
dataset_args={
'maritime_ocr_bench': {
# subset_list: ['IE', 'VQA', 'parsing'] # 可选,用于评估特定子集
}
},
limit=10, # 正式评估时请删除此行
)
run_task(task_cfg=task_cfg)