Skip to content
Logo LogoEvalScope
文档 博客
⌘ K
Logo LogoEvalScope
文档 博客

🚀 快速开始

  • 简介
  • 安装
  • 快速上手
  • 可视化
  • 参数说明
  • 支持的数据集
    • LLM评测集
    • VLM评测集
    • AGENT评测集
    • AIGC评测集
    • 其他数据集
      • OpenCompass
      • VLMEvalKit
      • MTEB 评测数据集
      • CLIP-Benchmark
  • ❓ 常见问题

🔧 教程

  • 其他评测后端
    • OpenCompass
    • VLMEvalKit
    • RAGEval
      • MTEB
      • CLIP Benchmark
      • RAGAS
  • 模型推理性能压测
    • 快速开始
    • 参数说明
    • 使用示例
    • SLA 自动调优
    • 速度基准测试
    • vLLM Bench vs Evalscope Perf 压测对比
    • 自定义使用
  • AIGC 评测
    • 文生图评测
    • 图片编辑评测
  • 竞技场模式
  • 沙箱环境使用
  • EvalScope 服务部署

🛠️ 进阶教程

  • 构建评测指数(Index)
    • 定义你的 Schema
    • 采样你的指数数据
    • 用你的指数统一评测
  • 自定义评测数据集
    • 大语言模型
    • 多模态大模型
    • Embedding模型
    • CLIP模型
  • 自定义模型评测
  • 👍 贡献基准评测

🧰 扩展评测基准

  • 扩展评测基准
    • Terminal-Bench 2.0
    • SWE-bench
    • τ-bench
    • τ²-bench
    • BFCL-v3
    • BFCL-v4
    • 大海捞针测试
    • ToolBench
    • LongBench-Write

📖 最佳实践

  • 最佳实践
    • Agent 工具调用评测指南
    • 榜单不盲从:用 EvalScope 打造你的专属场景评测
    • Qwen3-Omni 模型评测最佳实践
    • Qwen3-VL 模型评测最佳实践
    • Qwen3-Next 模型评测最佳实践
    • GPT-OSS 模型评测最佳实践
    • Qwen3-Coder+Instruct 模型评测最佳实践
    • 文生图评测最佳实践
    • Qwen3 模型评测最佳实践
    • QwQ模型评测最佳实践
    • 你家的AI有多聪明?智商和情商全评测!
    • 模型思考效率评测最佳实践
    • R1类模型推理能力评测最佳实践
    • LLM全链路最佳实践
    • ms-swift 集成

🧪 基准测试结果

  • 基准测试
    • MMLU
  • 速度基准测试
    • QwQ-32B-Preview

🌟 博客

  • 欢迎阅读 EvalScope 博客!
    • RAG 评测调研:框架、指标和方法
    • OpenAI-O1
    • 打破文本边界:如何进行多模态RAG评测
EvalScope
/
自定义评测数据集

自定义评测数据集#

下面介绍如何使用EvalScope自定义评测数据集,包括大模型评测数据集、多模态评测数据集、Embedding模型、CLIP模型评测等。

  • 大语言模型
    • 选择题格式(MCQ)
    • 问答题格式(QA)
    • 工具调用格式(FC)
  • 多模态大模型
    • 通用问答题格式(General-VQA)
    • 通用选择题格式(General-VMCQ)
    • 基于 VLMEvalKit (已废弃)
  • Embedding模型
    • 自定义文本检索评测
  • CLIP模型
    • 自定义图文检索数据集
    • 图文检索数据转文本检索数据
用你的指数统一评测
大语言模型

© 2022-2025, Alibaba ModelScope Built with Sphinx 8.2.3