Skip to content

⌘ K

🚀 快速开始

简介
安装
快速上手
可视化
参数说明
支持的数据集
❓ 常见问题

🔧 教程

其他评测后端
- OpenCompass
- VLMEvalKit
- RAGEval
模型推理性能压测
AIGC 评测
- 文生图评测
- 图片编辑评测
竞技场模式
沙箱环境使用
EvalScope 服务部署

🛠️ 进阶教程

构建评测指数（Index）
自定义评测数据集
自定义模型评测
👍 贡献基准评测

🧰 扩展评测基准

扩展评测基准

📖 最佳实践

最佳实践

🧪 基准测试结果

基准测试
- MMLU
速度基准测试
- QwQ-32B-Preview

🌟 博客

欢迎阅读 EvalScope 博客！

/

支持的数据集

/

其他数据集

其他数据集#

OpenCompass
VLMEvalKit
- 图文多模态评测集
- 视频多模态评测集
MTEB 评测数据集
- CMTEB 评测数据集
CLIP-Benchmark

© 2022-2025, Alibaba ModelScope Built with Sphinx 8.2.3