Skip to content
Logo LogoEvalScope
文档 博客
⌘ K
Logo LogoEvalScope
文档 博客

🚀 快速开始

  • 简介
  • 安装
  • 基本使用
  • 参数说明
  • 支持的数据集

🔧 教程

  • 其他评测后端
    • OpenCompass
    • VLMEvalKit
    • RAGEval
      • MTEB
      • CLIP Benchmark
      • RAGAS
  • 模型推理性能压测
    • 快速开始
    • 参数说明
    • 使用示例
    • 速度基准测试
    • 自定义使用
  • 竞技场模式

🛠️ 进阶教程

  • 数据混合评测
    • 定义数据混合schema
    • 采样数据
    • 统一评测
  • 添加基准评测
  • 自定义评测数据集
    • 大语言模型
    • 多模态大模型
    • Embedding模型
    • CLIP模型
  • 自定义模型评测

🧰 第三方工具

  • ToolBench
  • LongBench-Write

🧪 基准测试结果

  • 基准测试
    • MMLU
  • 速度基准测试
    • QwQ-32B-Preview

📖 最佳实践

  • ms-swift 集成
  • LLM全链路最佳实践

🌟 博客

  • 欢迎阅读 EvalScope 博客!
    • RAG 评测调研:框架、指标和方法
    • OpenAI-O1
    • 打破文本边界:如何进行多模态RAG评测
EvalScope
/
自定义评测数据集

自定义评测数据集#

下面介绍如何使用EvalScope自定义评测数据集,包括大模型评测数据集、多模态评测数据集、Embedding模型、CLIP模型评测等。

  • 大语言模型
    • 选择题格式(MCQ)
    • 问答题格式(QA)
    • (可选) 使用ms-swift框架自定义评测
  • 多模态大模型
    • 选择题格式(MCQ)
    • 自定义问答题格式(VQA)
  • Embedding模型
    • 自定义文本检索评测
  • CLIP模型
    • 自定义图文检索数据集
    • 图文检索数据转文本检索数据
添加基准评测
大语言模型

© 2022-2024, Alibaba ModelScope Built with Sphinx 8.1.3