Skip to content
Logo LogoEvalScope
文档 博客
⌘ K
Logo LogoEvalScope
文档 博客

🚀 快速开始

  • 简介
  • 安装
  • 快速上手
  • 可视化
  • 参数说明
  • 支持的数据集
    • LLM评测集
    • VLM评测集
    • AGENT评测集
    • AIGC评测集
    • 其他数据集
      • OpenCompass
      • VLMEvalKit
      • MTEB 评测数据集
      • CLIP-Benchmark
  • ❓ 常见问题

🔧 教程

  • 其他评测后端
    • OpenCompass
    • VLMEvalKit
    • RAGEval
      • MTEB
      • CLIP Benchmark
      • RAGAS
  • 模型推理性能压测
    • 快速开始
    • 参数说明
    • 使用示例
    • 速度基准测试
    • vLLM Bench vs Evalscope Perf 压测对比
    • 自定义使用
  • AIGC 评测
    • 文生图评测
    • 图片编辑评测
  • 竞技场模式
  • 沙箱环境使用
  • EvalScope 服务部署

🛠️ 进阶教程

  • 构建评测指数(Index)
    • 定义你的 Schema
    • 采样你的指数数据
    • 用你的指数统一评测
  • 自定义评测数据集
    • 大语言模型
    • 多模态大模型
    • Embedding模型
    • CLIP模型
  • 自定义模型评测
  • 👍 贡献基准评测

🧰 扩展评测基准

  • 扩展评测基准
    • SWE-bench
    • τ-bench
    • τ²-bench
    • BFCL-v3
    • BFCL-v4
    • 大海捞针测试
    • ToolBench
    • LongBench-Write

📖 最佳实践

  • 最佳实践
    • Qwen3-Omni 模型评测最佳实践
    • Qwen3-VL 模型评测最佳实践
    • Qwen3-Next 模型评测最佳实践
    • GPT-OSS 模型评测最佳实践
    • Qwen3-Coder+Instruct 模型评测最佳实践
    • 文生图评测最佳实践
    • Qwen3 模型评测最佳实践
    • QwQ模型评测最佳实践
    • 你家的AI有多聪明?智商和情商全评测!
    • 模型思考效率评测最佳实践
    • R1类模型推理能力评测最佳实践
    • LLM全链路最佳实践
    • ms-swift 集成

🧪 基准测试结果

  • 基准测试
    • MMLU
  • 速度基准测试
    • QwQ-32B-Preview

🌟 博客

  • 欢迎阅读 EvalScope 博客!
    • RAG 评测调研:框架、指标和方法
    • OpenAI-O1
    • 打破文本边界:如何进行多模态RAG评测
EvalScope
/
支持的数据集
/
其他数据集

其他数据集#

  • OpenCompass
  • VLMEvalKit
    • 图文多模态评测集
    • 视频多模态评测集
  • MTEB 评测数据集
    • CMTEB 评测数据集
  • CLIP-Benchmark
AIGC评测集
OpenCompass

© 2022-2025, Alibaba ModelScope Built with Sphinx 8.2.3