Skip to content
EvalScope
文档
博客
Toggle navigation menu
⌘
K
EvalScope
/
扩展评测基准
扩展评测基准
#
本章节介绍需要额外安装依赖包或进行特殊配置的评测基准。这些基准通常针对特定领域或任务,提供了更专业的评测能力。
使用这些基准前,请先按照各基准文档中的说明安装相应的依赖包和完成必要的环境配置。
SWE-bench
τ-bench
τ²-bench
BFCL-v3
BFCL-v4
大海捞针测试
ToolBench
LongBench-Write
👍 贡献基准评测
SWE-bench
Back to top