参数说明#

执行 evalscope eval --help 可获取全部参数说明。

模型参数#

--model: 被评测的模型名称。
- 指定为模型在ModelScope中的id，将自动下载模型，例如Qwen/Qwen2.5-0.5B-Instruct；
- 指定为模型的本地路径，例如/path/to/model，将从本地加载模型；
- 评测目标为模型API端点时，需要指定为model_id，例如Qwen2.5-0.5B-Instruct。
--model-id: 被评测的模型的别名。默认为model的最后一部分，例如Qwen/Qwen2.5-0.5B-Instruct的model-id为Qwen2.5-0.5B-Instruct
--model-args: 模型加载参数，以逗号分隔，key=value形式，默认参数：
- revision: 模型版本，默认为master
- precision: 模型精度，默认为torch.float16
- device_map: 模型分配设备，默认为auto
--generation-config: 生成参数，以逗号分隔，key=value形式，默认参数：
- do_sample: 是否使用采样，默认为false
- max_length: 最大长度，默认为2048
- max_new_tokens: 生成最大长度，默认为512
--chat-template: 模型推理模板，默认为None，表示使用transformers的apply_chat_template；支持传入jinjia模版字符串，来自定义推理模板
--template-type: 模型推理模板，已弃用，参考--chat-template
--api-url: (仅在eval-type=service时有效) 模型API端点，默认为None；支持传入本地或远端的OpenAI API格式端点，例如http://127.0.0.1:8000/v1/chat/completions
--api-key: (仅在eval-type=service时有效) 模型API端点密钥，默认为EMPTY

--eval-stage: 评测阶段，可选all, infer, review
- all: 完整评测，包含推理和评测
- infer: 仅进行推理，不进行评测
- review: 仅进行数据评测，不进行推理
--eval-type: 评测类型，可选checkpoint, custom, service；默认为checkpoint
--eval-backend: 评测后端，可选Native, OpenCompass, VLMEvalKit, RAGEval, ThirdParty，默认为Native
- OpenCompass用于评测大语言模型
- VLMEvalKit用于评测多模态模型
- RAGEval用于评测RAG流程、Embedding模型、Reranker模型、CLIP模型
  
  参见
  
  其他评测后端使用指南
- ThirdParty 用于其他特殊任务评测，例如ToolBench, LongBench
--eval-config: 使用非Native评测后端时，需要传入该参数

--work-dir: 模型评测输出路径，默认为./outputs/{timestamp}
--use-cache: 使用本地缓存的路径，默认为None；如果为指定路径，例如outputs/20241210_194434，将重用路径下的模型推理结果，若未完成推理则会继续推理，之后进行评测。
--seed: 随机种子，默认为42
--debug: 是否开启调试模式，默认为false
--dry-run: 预检参数，不进行推理，只打印参数，默认为false