LoCoMo#

概述#

LoCoMo 用于评估两人在多轮会话对话中的超长期对话记忆能力。该适配器支持来自 locomo10.json 的官方问答任务。

任务描述#

任务类型：长上下文问答
输入：包含会话日期的多轮对话历史和一个问题
输出：简短的自由格式答案
子集：qa

主要特性#

使用托管在 ModelScope 上的官方 LoCoMo QA 数据文件
支持完整历史的长上下文提示和仅含证据的 oracle 提示
在数据中存在时包含图像说明，但不会下载图像文件
使用 LoCoMo 基于规则的 F1 / 对抗性拒绝评分机制，而非基于大语言模型（LLM）的评判器

评估说明#

默认子集为 qa，且 eval_mode=long_context
使用 extra_params.eval_mode='oracle_context' 进行仅含证据的上限评估
此 QA 适配器不包含事件摘要、多模态对话生成和 RAG 检索任务

属性#

属性	值
基准测试名称	`locomo`
数据集ID	evalscope/locomo
论文	N/A
标签	`LongContext`, `MultiTurn`, `QA`
指标	`f1`
默认示例数	0-shot
评估分割	`test`

数据统计#

指标	值
总样本数	1,986
提示词长度（平均）	94097.72 字符
提示词长度（最小/最大）	55178 / 111026 字符

样例示例#

子集: qa

{
  "input": [
    {
      "id": "b585f7b0",
      "content": "Below is a conversation between two people: Caroline and Melanie. The conversation takes place over multiple days and the date of each conversation is wriiten at the beginning of the conversation.\n\nDATE: 1:56 pm on 8 May, 2023\nCONVERSATION:\nC ... [TRUNCATED 74397 chars] ... m of a short phrase for the following question. Answer with exact words from the context whenever possible.\n\nQuestion: When did Caroline go to the LGBTQ support group? Use DATE of CONVERSATION to answer with an approximate date. Short answer:"
    }
  ],
  "target": "7 May 2023",
  "id": 0,
  "group_id": 0,
  "metadata": {
    "sample_id": "conv-26",
    "qa_index": 0,
    "category": 2,
    "category_name": "temporal",
    "raw_question": "When did Caroline go to the LGBTQ support group?",
    "answer": "7 May 2023",
    "adversarial_answer": null,
    "eval_mode": "long_context",
    "question": "When did Caroline go to the LGBTQ support group? Use DATE of CONVERSATION to answer with an approximate date.",
    "evidence": [
      "D1:3"
    ]
  }
}

提示模板#

未定义提示模板。

额外参数#

参数	类型	默认值	描述
`eval_mode`	`str`	`long_context`	评估模式：long_context 或 oracle_context。可选值：['long_context', 'oracle_context']

使用方法#

使用 CLI#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets locomo \
    --limit 10  # 正式评估时请删除此行

使用 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['locomo'],
    dataset_args={
        'locomo': {
            # extra_params: {}  # 使用默认额外参数
        }
    },
    limit=10,  # 正式评估时请删除此行
)

run_task(task_cfg=task_cfg)