Skip to content
Logo LogoEvalScope
文档 博客
⌘ K
Logo LogoEvalScope
文档 博客

🚀 快速开始

  • 简介
  • 安装
  • 基本使用
  • 可视化
  • 参数说明
  • 支持的数据集
  • ❓ 常见问题

🔧 教程

  • 其他评测后端
    • OpenCompass
    • VLMEvalKit
    • RAGEval
      • MTEB
      • CLIP Benchmark
      • RAGAS
  • 模型推理性能压测
    • 快速开始
    • 参数说明
    • 使用示例
    • 速度基准测试
    • 自定义使用
  • AIGC 评测
    • 文生图评测
  • 竞技场模式

🛠️ 进阶教程

  • 数据混合评测
    • 定义数据混合schema
    • 采样数据
    • 统一评测
  • 自定义评测数据集
    • 大语言模型
    • 多模态大模型
    • Embedding模型
    • CLIP模型
  • 自定义模型评测
  • 👍 贡献基准评测

🧰 第三方工具

  • ToolBench
  • LongBench-Write

🧪 基准测试结果

  • 基准测试
    • MMLU
  • 速度基准测试
    • QwQ-32B-Preview

📖 最佳实践

  • Qwen3 模型评测最佳实践
  • QwQ模型评测最佳实践
  • 你家的AI有多聪明?智商和情商全评测!
  • 模型思考效率评测最佳实践
  • R1类模型推理能力评测最佳实践
  • LLM全链路最佳实践
  • ms-swift 集成

🌟 博客

  • 欢迎阅读 EvalScope 博客!
    • RAG 评测调研:框架、指标和方法
    • OpenAI-O1
    • 打破文本边界:如何进行多模态RAG评测
EvalScope
/
模型推理性能压测

模型推理性能压测#

一个大语言模型的压力测试工具,可以自定义以支持各种数据集格式和不同的API协议格式,默认支持OpenAI API格式。

  • 快速开始
    • 环境准备
    • 基本使用
    • 可视化测试结果
  • 参数说明
    • 基本设置
    • 网络配置
    • 请求控制
    • Prompt设置
    • 数据集配置
    • 模型设置
    • 数据存储
  • 使用示例
    • 使用本地模型推理
    • 使用prompt
    • 复杂请求
    • 使用query-template
    • 使用random数据集
    • 使用SwanLab记录测试结果
    • 调试请求
  • 速度基准测试
    • 在线API推理
    • 本地Transformer推理
    • 本地vLLM推理
  • 自定义使用
    • 自定义结果分析
    • 自定义请求 API
    • 自定义数据集
RAGAS
快速开始

© 2022-2024, Alibaba ModelScope Built with Sphinx 8.2.3