竞技场模式#

竞技场模式允许多个候选模型通过两两对比(pairwise battle)的方式进行评测,并可以选择借助AI Enhanced Auto-Reviewer(AAR)自动评测流程或者人工评测的方式,最终得到评测报告,本框架支持如下三种模型评测流程:

全部模型两两对比(Pairwise mode)#

1. 环境准备#

a. 数据准备,questions data格式参考:evalscope/registry/data/question.jsonl
b. 如果需要使用自动评测流程(AAR),则需要配置相关环境变量,我们以GPT-4 based auto-reviewer流程为例,需要配置以下环境变量:
> export OPENAI_API_KEY=YOUR_OPENAI_API_KEY

2. 配置文件#

arena评测流程的配置文件参考: evalscope/registry/config/cfg_arena.yaml
字段说明:
    questions_file: question data的路径
    answers_gen: 候选模型预测结果生成,支持多个模型,可通过enable参数控制是否开启该模型
    reviews_gen: 评测结果生成,目前默认使用GPT-4作为Auto-reviewer,可通过enable参数控制是否开启该步骤
    elo_rating: ELO rating 算法,可通过enable参数控制是否开启该步骤,注意该步骤依赖review_file必须存在

3. 执行脚本#

#Usage:
cd evalscope

# dry-run模式 (模型answer正常生成,但专家模型,如GPT-4,不会被调用,评测结果会随机生成)
python evalscope/run_arena.py -c registry/config/cfg_arena.yaml --dry-run

# 执行评测流程
python evalscope/run_arena.py --c registry/config/cfg_arena.yaml

4. 结果可视化#

# Usage:
streamlit run viz.py --review-file evalscope/registry/data/qa_browser/battle.jsonl --category-file evalscope/registry/data/qa_browser/category_mapping.yaml

单模型打分模式(Single mode)#

这个模式下,我们只对单个模型输出做打分,不做两两对比。

1. 配置文件#

评测流程的配置文件参考: evalscope/registry/config/cfg_single.yaml
字段说明:
    questions_file: question data的路径
    answers_gen: 候选模型预测结果生成,支持多个模型,可通过enable参数控制是否开启该模型
    reviews_gen: 评测结果生成,目前默认使用GPT-4作为Auto-reviewer,可通过enable参数控制是否开启该步骤
    rating_gen: rating 算法,可通过enable参数控制是否开启该步骤,注意该步骤依赖review_file必须存在

2. 执行脚本#

#Example:
python evalscope/run_arena.py --c registry/config/cfg_single.yaml

Baseline模型对比模式(Pairwise-baseline mode)#

这个模式下,我们选定 baseline 模型,其他模型与 baseline 模型做对比评分。这个模式可以方便的把新模型加入到 Leaderboard 中(只需要对新模型跟 baseline 模型跑一遍打分即可)

1. 配置文件#

评测流程的配置文件参考: evalscope/registry/config/cfg_pairwise_baseline.yaml
字段说明:
    questions_file: question data的路径
    answers_gen: 候选模型预测结果生成,支持多个模型,可通过enable参数控制是否开启该模型
    reviews_gen: 评测结果生成,目前默认使用GPT-4作为Auto-reviewer,可通过enable参数控制是否开启该步骤
    rating_gen: rating 算法,可通过enable参数控制是否开启该步骤,注意该步骤依赖review_file必须存在

2. 执行脚本#

# Example:
python evalscope/run_arena.py --c registry/config/cfg_pairwise_baseline.yaml