Skip to content
Logo LogoEvalScope
文档 博客
⌘ K
Logo LogoEvalScope
文档 博客

🚀 快速开始

  • 简介
  • 安装
  • 快速上手
  • 可视化
  • 参数说明
  • 支持的数据集
    • LLM评测集
      • AA-LCR
      • AIME-2024
      • AIME-2025
      • AIME-2026
      • AlpacaEval2.0
      • AMC
      • AnatEM
      • ARC
      • ArenaHard
      • BBH
      • BC2GM
      • BC4CHEMD
      • BC5CDR
      • BioMixQA
      • BroadTwitterCorpus
      • C-Eval
      • Chinese-SimpleQA
      • CL-bench
      • C-MMLU
      • CoinFlip
      • CommonsenseQA
      • Competition-MATH
      • CoNLL2003
      • CoNLL++
      • Copious
      • CrossNER
      • Data-Collection
      • DocMath
      • DrivelologyBinaryClassification
      • DrivelologyMultilabelClassification
      • DrivelologyNarrativeSelection
      • DrivelologyNarrativeWriting
      • DROP
      • EQ-Bench
      • FinNER
      • FRAMES
      • GeneralArena
      • General-MCQ
      • General-QA
      • GeniaNER
      • GPQA-Diamond
      • GSM8K
      • HaluEval
      • HarveyNER
      • HealthBench
      • HellaSwag
      • Humanity's-Last-Exam
      • HMMT25
      • HumanEval
      • HumanEvalPlus
      • IFBench
      • IFEval
      • IQuiz
      • JNLPBA
      • JNLPBA-Rare
      • Live-Code-Bench
      • LogiQA
      • LongBench-v2
      • MaritimeBench
      • MATH-500
      • MathQA
      • MBPP
      • MBPP-Plus
      • Med-MCQA
      • MGSM
      • Minerva-Math
      • MIT-Movie-Trivia
      • MIT-Restaurant
      • MMLU
      • MMLU-Pro
      • MMLU-Redux
      • MMMLU
      • MRI-MCQA
      • Multi-IF
      • MultiNERD
      • MultiPL-E HumanEval
      • MultiPL-E MBPP
      • MusicTrivia
      • MuSR
      • NCBI
      • Needle-in-a-Haystack
      • OntoNotes5
      • OpenAI MRCR
      • PIQA
      • PolyMath
      • ProcessBench
      • PubMedQA
      • QASC
      • RACE
      • RefCOCO
      • SciCode
      • SciQ
      • SimpleQA
      • SIQA
      • SuperGPQA
      • SWE-bench_Lite
      • SWE-bench_Verified
      • SWE-bench_Verified_mini
      • Terminal-Bench-2.0
      • ToolBench-Static
      • TriviaQA
      • TruthfulQA
      • TweeBankNER
      • TweetNER7
      • Winogrande
      • WMT2024++
      • WNUT2017
      • ZebraLogicBench
    • VLM评测集
      • A-OKVQA
      • AI2D
      • AIR-Bench-Chat
      • AIR-Bench-Foundation
      • BLINK
      • CCBench
      • ChartQA
      • CMMMU
      • CMMU
      • DocVQA
      • FLEURS
      • General-VMCQ
      • General-VQA
      • GSM8K-V
      • HallusionBench
      • InfoVQA
      • LibriSpeech
      • MathVerse
      • MathVision
      • MathVista
      • MIA-Bench
      • MicroVQA
      • MMBench
      • MMStar
      • MMMU
      • MMMU-PRO
      • MVBench
      • OCRBench
      • OCRBench-v2
      • OlympiadBench
      • OmniBench
      • OmniDocBench
      • POPE
      • RealWorldQA
      • ScienceQA
      • SEED-Bench-2-Plus
      • SimpleVQA
      • TIR-Bench
      • TORGO
      • Video-MME-v2
      • VisuLogic
      • V*Bench
      • ZeroBench
    • AGENT评测集
      • BFCL-v3
      • BFCL-v4
      • General-FunctionCalling
      • SWE-bench_Lite_Agentic
      • SWE-bench_Verified_Agentic
      • SWE-bench_Verified_Mini_Agentic
      • τ²-bench
      • τ-bench
    • AIGC评测集
      • EvalMuse
      • GEdit-Bench
      • GenAI-Bench
      • general_t2i
      • HPD-v2
      • TIFA-160
    • 其他数据集
      • OpenCompass
      • VLMEvalKit
      • MTEB 评测数据集
      • CLIP-Benchmark
  • ❓ 常见问题

🔧 教程

  • 其他评测后端
    • OpenCompass
    • VLMEvalKit
    • RAGEval
      • MTEB
      • CLIP Benchmark
      • RAGAS
  • 模型推理性能压测
    • 快速开始
    • 参数说明
    • 使用示例
    • 多轮对话压测
    • SLA 自动调优
    • 速度基准测试
    • vLLM Bench vs Evalscope Perf 压测对比
    • 自定义使用
  • AIGC 评测
    • 文生图评测
    • 图片编辑评测
  • 竞技场模式
  • 沙箱环境使用
  • Agent 评测模式
  • EvalScope 服务部署

🛠️ 进阶教程

  • 构建评测指数(Index)
    • 定义你的 Schema
    • 采样你的指数数据
    • 用你的指数统一评测
  • 自定义评测数据集
    • 大语言模型
    • 多模态大模型
    • Embedding模型
    • CLIP模型
  • 自定义模型评测
  • 👍 贡献基准评测

🧰 扩展评测基准

  • 扩展评测基准
    • Terminal-Bench 2.0
    • SWE-bench
    • τ-bench
    • τ²-bench
    • BFCL-v3
    • BFCL-v4
    • 大海捞针测试
    • ToolBench
    • LongBench-Write

📖 最佳实践

  • 最佳实践
    • 从对话到Agent:大模型工具调用能力的量化评测
    • 榜单不盲从:用 EvalScope 打造你的专属场景评测
    • Qwen3-Omni 模型评测最佳实践
    • Qwen3-VL 模型评测最佳实践
    • Qwen3-Next 模型评测最佳实践
    • GPT-OSS 模型评测最佳实践
    • Qwen3-Coder+Instruct 模型评测最佳实践
    • 文生图评测最佳实践
    • Qwen3 模型评测最佳实践
    • QwQ模型评测最佳实践
    • 你家的AI有多聪明?智商和情商全评测!
    • 模型思考效率评测最佳实践
    • R1类模型推理能力评测最佳实践
    • LLM全链路最佳实践
    • ms-swift 集成

🧪 基准测试结果

  • 基准测试
    • MMLU
  • 速度基准测试
    • QwQ-32B-Preview

🌟 博客

  • 欢迎阅读 EvalScope 博客!
    • RAG 评测调研:框架、指标和方法
    • OpenAI-O1
    • 打破文本边界:如何进行多模态RAG评测
EvalScope
/
模型推理性能压测

模型推理性能压测#

一个大语言模型的压力测试工具,可以自定义以支持各种数据集格式和不同的API协议格式,默认支持OpenAI API格式。

  • 快速开始
    • 环境准备
    • 基本使用
    • 可视化测试结果
  • 参数说明
    • 基本设置
    • 网络配置
    • 请求控制
    • SLA设置
    • Prompt设置
    • 数据集配置
    • 模型设置
    • 数据存储
    • 多轮对话设置
    • 其他参数
  • 使用示例
    • 使用本地模型推理
    • 使用prompt
    • 复杂请求
    • 使用query-template
    • 使用random数据集
    • 使用random图文数据集
    • Embedding模型压测
    • Rerank模型压测
    • Open-loop 开放环路模式
    • Warmup 预热压测
    • 调试请求
    • 可视化测试结果
  • 多轮对话压测
    • 功能特性
    • 参数说明
    • 工作流程
    • 数据集
  • SLA 自动调优
    • 功能特性
    • 参数说明
    • 支持的指标与操作符
    • --sla-params 逻辑说明
    • 工作流程
    • 使用示例
  • 速度基准测试
    • 在线API推理
    • 本地Transformer推理
    • 本地vLLM推理
  • vLLM Bench vs Evalscope Perf 压测对比
    • TL;DR
    • 环境与前置条件
    • 启动服务
    • 参数对齐指南
    • 一致性校验:最小示例(1 并发 / 1 请求)
    • 规模压测:50 并发 / 1000 请求
    • 指标口径与命名对照
    • 常见误差来源与排查建议
  • 自定义使用
    • 自定义结果分析
    • 自定义请求 API
    • 自定义数据集
    • 注意事项
RAGAS
快速开始

© 2022-2025, Alibaba ModelScope Built with Sphinx 9.1.0