Skip to content
Logo LogoEvalScope
文档 博客
⌘ K
Logo LogoEvalScope
文档 博客

🚀 快速开始

  • 简介
  • 安装
  • 快速上手
  • 可视化
  • 参数说明
  • 支持的数据集
    • LLM评测集
    • VLM评测集
    • AGENT评测集
    • AIGC评测集
    • 其他数据集
      • OpenCompass
      • VLMEvalKit
      • MTEB 评测数据集
      • CLIP-Benchmark
  • ❓ 常见问题

🔧 教程

  • 其他评测后端
    • OpenCompass
    • VLMEvalKit
    • RAGEval
      • MTEB
      • CLIP Benchmark
      • RAGAS
  • 模型推理性能压测
    • 快速开始
    • 参数说明
    • 使用示例
    • SLA 自动调优
    • 速度基准测试
    • vLLM Bench vs Evalscope Perf 压测对比
    • 自定义使用
  • AIGC 评测
    • 文生图评测
    • 图片编辑评测
  • 竞技场模式
  • 沙箱环境使用
  • EvalScope 服务部署

🛠️ 进阶教程

  • 构建评测指数(Index)
    • 定义你的 Schema
    • 采样你的指数数据
    • 用你的指数统一评测
  • 自定义评测数据集
    • 大语言模型
    • 多模态大模型
    • Embedding模型
    • CLIP模型
  • 自定义模型评测
  • 👍 贡献基准评测

🧰 扩展评测基准

  • 扩展评测基准
    • Terminal-Bench 2.0
    • SWE-bench
    • τ-bench
    • τ²-bench
    • BFCL-v3
    • BFCL-v4
    • 大海捞针测试
    • ToolBench
    • LongBench-Write

📖 最佳实践

  • 最佳实践
    • Agent 工具调用评测指南
    • 榜单不盲从:用 EvalScope 打造你的专属场景评测
    • Qwen3-Omni 模型评测最佳实践
    • Qwen3-VL 模型评测最佳实践
    • Qwen3-Next 模型评测最佳实践
    • GPT-OSS 模型评测最佳实践
    • Qwen3-Coder+Instruct 模型评测最佳实践
    • 文生图评测最佳实践
    • Qwen3 模型评测最佳实践
    • QwQ模型评测最佳实践
    • 你家的AI有多聪明?智商和情商全评测!
    • 模型思考效率评测最佳实践
    • R1类模型推理能力评测最佳实践
    • LLM全链路最佳实践
    • ms-swift 集成

🧪 基准测试结果

  • 基准测试
    • MMLU
  • 速度基准测试
    • QwQ-32B-Preview

🌟 博客

  • 欢迎阅读 EvalScope 博客!
    • RAG 评测调研:框架、指标和方法
    • OpenAI-O1
    • 打破文本边界:如何进行多模态RAG评测
EvalScope
/
模型推理性能压测

模型推理性能压测#

一个大语言模型的压力测试工具,可以自定义以支持各种数据集格式和不同的API协议格式,默认支持OpenAI API格式。

  • 快速开始
    • 环境准备
    • 基本使用
    • 可视化测试结果
  • 参数说明
    • 基本设置
    • 网络配置
    • 请求控制
    • SLA设置
    • Prompt设置
    • 数据集配置
    • 模型设置
    • 数据存储
    • 其他参数
  • 使用示例
    • 使用本地模型推理
    • 使用prompt
    • 复杂请求
    • 使用query-template
    • 使用random数据集
    • 使用random图文数据集
    • Embedding模型压测
    • Rerank模型压测
    • 可视化测试结果
    • 调试请求
  • SLA 自动调优
    • 功能特性
    • 参数说明
    • 支持的指标与操作符
    • 工作流程
    • 使用示例
  • 速度基准测试
    • 在线API推理
    • 本地Transformer推理
    • 本地vLLM推理
  • vLLM Bench vs Evalscope Perf 压测对比
    • TL;DR
    • 环境与前置条件
    • 启动服务
    • 参数对齐指南
    • 一致性校验:最小示例(1 并发 / 1 请求)
    • 规模压测:50 并发 / 500 请求
    • 指标口径与命名对照
    • 常见误差来源与排查建议
  • 自定义使用
    • 自定义结果分析
    • 自定义请求 API
    • 自定义数据集
    • 注意事项
RAGAS
快速开始

© 2022-2025, Alibaba ModelScope Built with Sphinx 8.2.3