Skip to content
Logo LogoEvalScope
文档 博客
⌘ K
Logo LogoEvalScope
文档 博客

🚀 快速开始

  • 简介
  • 安装
  • 快速上手
  • 可视化
  • 参数说明
  • 支持的数据集
    • LLM评测集
      • AA-LCR
      • AIME-2024
      • AIME-2025
      • AIME-2026
      • AlpacaEval2.0
      • AMC
      • AnatEM
      • ARC
      • ArenaHard
      • BBH
      • BC2GM
      • BC4CHEMD
      • BC5CDR
      • BioMixQA
      • BroadTwitterCorpus
      • C-Eval
      • Chinese-SimpleQA
      • CL-bench
      • C-MMLU
      • CoinFlip
      • CommonsenseQA
      • Competition-MATH
      • CoNLL2003
      • CoNLL++
      • Copious
      • CrossNER
      • Data-Collection
      • DocMath
      • DrivelologyBinaryClassification
      • DrivelologyMultilabelClassification
      • DrivelologyNarrativeSelection
      • DrivelologyNarrativeWriting
      • DROP
      • EQ-Bench
      • FinNER
      • FRAMES
      • GeneralArena
      • General-MCQ
      • General-QA
      • GeniaNER
      • GPQA-Diamond
      • GSM8K
      • HaluEval
      • HarveyNER
      • HealthBench
      • HellaSwag
      • Humanity's-Last-Exam
      • HMMT25
      • HumanEval
      • HumanEvalPlus
      • IFBench
      • IFEval
      • IQuiz
      • JNLPBA
      • JNLPBA-Rare
      • Live-Code-Bench
      • LogiQA
      • LongBench-v2
      • MaritimeBench
      • MATH-500
      • MathQA
      • MBPP
      • MBPP-Plus
      • Med-MCQA
      • MGSM
      • Minerva-Math
      • MIT-Movie-Trivia
      • MIT-Restaurant
      • MMLU
      • MMLU-Pro
      • MMLU-Redux
      • MMMLU
      • MRI-MCQA
      • Multi-IF
      • MultiNERD
      • MultiPL-E HumanEval
      • MultiPL-E MBPP
      • MusicTrivia
      • MuSR
      • NCBI
      • Needle-in-a-Haystack
      • OntoNotes5
      • OpenAI MRCR
      • PIQA
      • PolyMath
      • ProcessBench
      • PubMedQA
      • QASC
      • RACE
      • RefCOCO
      • SciCode
      • SciQ
      • SimpleQA
      • SIQA
      • SuperGPQA
      • SWE-bench_Lite
      • SWE-bench_Verified
      • SWE-bench_Verified_mini
      • Terminal-Bench-2.0
      • ToolBench-Static
      • TriviaQA
      • TruthfulQA
      • TweeBankNER
      • TweetNER7
      • Winogrande
      • WMT2024++
      • WNUT2017
      • ZebraLogicBench
    • VLM评测集
      • A-OKVQA
      • AI2D
      • AIR-Bench-Chat
      • AIR-Bench-Foundation
      • BLINK
      • CCBench
      • ChartQA
      • CMMMU
      • CMMU
      • DocVQA
      • FLEURS
      • General-VMCQ
      • General-VQA
      • GSM8K-V
      • HallusionBench
      • InfoVQA
      • LibriSpeech
      • MathVerse
      • MathVision
      • MathVista
      • MIA-Bench
      • MicroVQA
      • MMBench
      • MMStar
      • MMMU
      • MMMU-PRO
      • MVBench
      • OCRBench
      • OCRBench-v2
      • OlympiadBench
      • OmniBench
      • OmniDocBench
      • POPE
      • RealWorldQA
      • ScienceQA
      • SEED-Bench-2-Plus
      • SimpleVQA
      • TIR-Bench
      • TORGO
      • Video-MME-v2
      • VisuLogic
      • V*Bench
      • ZeroBench
    • AGENT评测集
      • BFCL-v3
      • BFCL-v4
      • General-FunctionCalling
      • SWE-bench_Lite_Agentic
      • SWE-bench_Verified_Agentic
      • SWE-bench_Verified_Mini_Agentic
      • τ²-bench
      • τ-bench
    • AIGC评测集
      • EvalMuse
      • GEdit-Bench
      • GenAI-Bench
      • general_t2i
      • HPD-v2
      • TIFA-160
    • 其他数据集
      • OpenCompass
      • VLMEvalKit
      • MTEB 评测数据集
      • CLIP-Benchmark
  • ❓ 常见问题

🔧 教程

  • 其他评测后端
    • OpenCompass
    • VLMEvalKit
    • RAGEval
      • MTEB
      • CLIP Benchmark
      • RAGAS
  • 模型推理性能压测
    • 快速开始
    • 参数说明
    • 使用示例
    • 多轮对话压测
    • SLA 自动调优
    • 速度基准测试
    • vLLM Bench vs Evalscope Perf 压测对比
    • 自定义使用
  • AIGC 评测
    • 文生图评测
    • 图片编辑评测
  • 竞技场模式
  • 沙箱环境使用
  • Agent 评测模式
  • EvalScope 服务部署

🛠️ 进阶教程

  • 构建评测指数(Index)
    • 定义你的 Schema
    • 采样你的指数数据
    • 用你的指数统一评测
  • 自定义评测数据集
    • 大语言模型
    • 多模态大模型
    • Embedding模型
    • CLIP模型
  • 自定义模型评测
  • 👍 贡献基准评测

🧰 扩展评测基准

  • 扩展评测基准
    • Terminal-Bench 2.0
    • SWE-bench
    • τ-bench
    • τ²-bench
    • BFCL-v3
    • BFCL-v4
    • 大海捞针测试
    • ToolBench
    • LongBench-Write

📖 最佳实践

  • 最佳实践
    • 从对话到Agent:大模型工具调用能力的量化评测
    • 榜单不盲从:用 EvalScope 打造你的专属场景评测
    • Qwen3-Omni 模型评测最佳实践
    • Qwen3-VL 模型评测最佳实践
    • Qwen3-Next 模型评测最佳实践
    • GPT-OSS 模型评测最佳实践
    • Qwen3-Coder+Instruct 模型评测最佳实践
    • 文生图评测最佳实践
    • Qwen3 模型评测最佳实践
    • QwQ模型评测最佳实践
    • 你家的AI有多聪明?智商和情商全评测!
    • 模型思考效率评测最佳实践
    • R1类模型推理能力评测最佳实践
    • LLM全链路最佳实践
    • ms-swift 集成

🧪 基准测试结果

  • 基准测试
    • MMLU
  • 速度基准测试
    • QwQ-32B-Preview

🌟 博客

  • 欢迎阅读 EvalScope 博客!
    • RAG 评测调研:框架、指标和方法
    • OpenAI-O1
    • 打破文本边界:如何进行多模态RAG评测
EvalScope
/
支持的数据集
/
VLM评测集
/
BLINK

BLINK#

概述#

BLINK 是一个用于评估多模态大语言模型(MLLMs)核心视觉感知能力的基准测试。它将 14 个经典的计算机视觉任务转化为 3,807 道包含单张或多张图像及视觉提示的多项选择题。

任务描述#

  • 任务类型:视觉感知多项选择问答

  • 输入:一张或多张图像 + 多项选择题

  • 输出:单个答案字母

  • 领域:视觉感知、对应关系、推理、检测

主要特点#

  • 覆盖 14 种多样化的视觉感知任务

  • 支持单图和多图输入(最多 4 张图像)

  • 测试基础的视觉理解能力

  • 类别包括:艺术风格、计数、取证检测、智商测试、拼图、多视角推理、物体定位等

  • 题目源自经典计算机视觉基准数据集

评估说明#

  • 默认使用 val 划分进行评估

  • 主要指标:多项选择题的 准确率(Accuracy)

  • 响应格式为 "ANSWER: [LETTER]"

  • 结果可按 14 个不同的感知类别进行分析

属性#

属性

值

基准测试名称

blink

数据集ID

evalscope/BLINK

论文

N/A

标签

Knowledge, MCQ, MultiModal

指标

acc

默认示例数量

0-shot

评估划分

val

数据统计#

指标

值

总样本数

1,901

提示词长度(平均)

577.53 字符

提示词长度(最小/最大)

252 / 1125 字符

各子集统计数据:

子集

样本数

提示词平均长度

提示词最小长度

提示词最大长度

Art_Style

117

553

553

553

Counting

120

285.21

270

317

Forensic_Detection

132

480

480

480

Functional_Correspondence

130

1118.34

1113

1125

IQ_Test

150

884.6

548

922

Jigsaw

150

543

543

543

Multi-view_Reasoning

133

549

549

549

Object_Localization

122

531.86

527

548

Relative_Depth

124

359

359

359

Relative_Reflectance

134

498

498

498

Semantic_Correspondence

139

952

952

952

Spatial_Relation

143

263.97

252

282

Visual_Correspondence

172

587

587

587

Visual_Similarity

135

414

414

414

图像统计数据:

指标

值

图像总数

3,675

每样本图像数

最小: 1, 最大: 4, 平均: 1.93

分辨率范围

200x83 - 3072x4096

格式

jpeg

样例示例#

子集: Art_Style

{
  "input": [
    {
      "id": "a522940e",
      "content": [
        {
          "text": "Answer the following multiple choice question. The last line of your response should be of the following format:\n'ANSWER: [LETTER]' (without quotes) where [LETTER] is one of A,B.\n\nSome most common art painting styles include Realism, Impressi ... [TRUNCATED] ...  of art paintings, use the first image as the reference image, and determine which one of the second or the third image shares the same style as the reference image?\nSelect from the following choices.\n(A) the second image\n(B) the third image\n"
        },
        {
          "image": "[BASE64_IMAGE: jpeg, ~477.8KB]"
        },
        {
          "image": "[BASE64_IMAGE: jpeg, ~876.1KB]"
        },
        {
          "image": "[BASE64_IMAGE: jpeg, ~329.2KB]"
        }
      ]
    }
  ],
  "choices": [
    "the second image",
    "the third image"
  ],
  "target": "A",
  "id": 0,
  "group_id": 0
}

注:部分内容为显示目的已截断。

提示模板#

提示模板:

Answer the following multiple choice question. The last line of your response should be of the following format:
'ANSWER: [LETTER]' (without quotes) where [LETTER] is one of {letters}.

{question}

使用方法#

使用 CLI#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets blink \
    --limit 10  # 正式评估时请删除此行

使用 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['blink'],
    dataset_args={
        'blink': {
            # subset_list: ['Art_Style', 'Counting', 'Forensic_Detection']  # 可选,用于评估特定子集
        }
    },
    limit=10,  # 正式评估时请删除此行
)

run_task(task_cfg=task_cfg)
AIR-Bench-Foundation
CCBench

On this page

  • 概述
  • 任务描述
  • 主要特点
  • 评估说明
  • 属性
  • 数据统计
  • 样例示例
  • 提示模板
  • 使用方法
    • 使用 CLI
    • 使用 Python

© 2022-2025, Alibaba ModelScope Built with Sphinx 9.1.0