τ-bench#
概述#
τ-bench(Tau Bench)是一个用于评估通过领域特定 API 工具和政策指南与用户交互的对话式 AI 代理的基准测试。它模拟动态的多轮对话,其中语言模型同时扮演用户和代理角色。
任务描述#
任务类型:对话代理评估
输入:具有特定目标和约束的用户场景
输出:代理通过 API 工具调用执行操作以完成任务
领域:航空客户服务、零售客户服务
主要特性#
使用 LLM 模拟用户的动态对话仿真
领域特定的 API 工具和政策指南
真实的客户服务场景
测试多轮对话能力
评估工具使用和政策合规性
评估说明#
需要安装:
pip install git+https://github.com/sierra-research/tau-bench用户模型配置:需设置用户模拟模型
主要指标:基于任务完成奖励的 准确率(Accuracy)
支持 航空(airline) 和 零售(retail) 领域
使用 pass@k 聚合方法进行鲁棒性评估
属性#
属性 |
值 |
|---|---|
基准测试名称 |
|
数据集 ID |
|
论文 |
N/A |
标签 |
|
指标 |
N/A |
默认示例数量 |
0-shot |
评估分割 |
|
聚合方式 |
|
数据统计#
统计数据不可用。
样例示例#
样例示例不可用。
提示模板#
未定义提示模板。
额外参数#
参数 |
类型 |
默认值 |
描述 |
|---|---|---|---|
|
|
|
用于在环境中模拟用户的模型。 |
|
|
|
用户模型后端的 API 密钥。 |
|
|
|
用户模型 API 请求的基础 URL。 |
|
|
|
用户模型模拟的默认生成配置。 |
使用方法#
使用 CLI#
evalscope eval \
--model YOUR_MODEL \
--api-url OPENAI_API_COMPAT_URL \
--api-key EMPTY_TOKEN \
--datasets tau_bench \
--limit 10 # 正式评估时请删除此行
使用 Python#
from evalscope import run_task
from evalscope.config import TaskConfig
task_cfg = TaskConfig(
model='YOUR_MODEL',
api_url='OPENAI_API_COMPAT_URL',
api_key='EMPTY_TOKEN',
datasets=['tau_bench'],
dataset_args={
'tau_bench': {
# extra_params: {} # 使用默认额外参数
}
},
limit=10, # 正式评估时请删除此行
)
run_task(task_cfg=task_cfg)