MBPP-Plus#

概述#

MBPP Plus 是 MBPP 基准测试的增强版本,旨在提升对基础 Python 编程合成任务的评估可靠性。它解决了原始数据集中的质量问题,并显著增加了每个问题的测试覆盖范围。

任务描述#

  • 任务类型:代码生成(Python)

  • 输入:包含测试断言的编程任务描述

  • 输出:Python 函数实现

  • 改进点:经过清洗的数据与扩展的测试套件

主要特性#

  • 修正了参考代码并澄清了问题描述

  • 每个问题大幅扩充了测试用例(通过自动化生成)

  • 采用基于大语言模型(LLM)和基于变异(mutation-based)的测试生成策略

  • 能够暴露原始 MBPP 中遗漏的边界情况错误

  • 提供更严格、更准确的代码正确性评估

评估说明#

  • 默认配置使用 0-shot 评估

  • 安全警告:默认情况下,代码将在本地环境中执行。我们强烈建议使用沙箱环境执行。详情请参阅 沙箱文档

  • 支持 pass@k 指标计算

  • 每个问题默认超时时间为 20 秒

  • 评估标准比原始 MBPP 基准测试更为严格

属性#

属性

基准测试名称

mbpp_plus

数据集ID

evalscope/mbppplus

论文

N/A

标签

Coding

指标

acc

默认示例数

0-shot

评估分割

test

聚合方式

mean_and_pass_at_k

数据统计#

指标

总样本数

378

提示词长度(平均)

375.53 字符

提示词长度(最小/最大)

222 / 2801 字符

样例示例#

子集: default

{
  "input": [
    {
      "id": "aa126494",
      "content": "You are an expert Python programmer, and here is your task: Write a function to find the shared elements from the given two lists. Your code should pass these tests:\n\nassert set(similar_elements((3, 4, 5, 6),(5, 7, 4, 10))) == set((4, 5))\nassert set(similar_elements((1, 2, 3, 4),(5, 4, 3, 7))) == set((3, 4))\nassert set(similar_elements((11, 12, 14, 13),(17, 15, 14, 13))) == set((13, 14))"
    }
  ],
  "target": "\ndef similar_elements(test_tup1, test_tup2):\n  return tuple(set(test_tup1) & set(test_tup2))\n",
  "id": 0,
  "group_id": 0,
  "metadata": {
    "task_id": 2,
    "source_file": "Benchmark Questions Verification V2.ipynb",
    "test_imports": [],
    "test_list": [
      "assert set(similar_elements((3, 4, 5, 6),(5, 7, 4, 10))) == set((4, 5))",
      "assert set(similar_elements((1, 2, 3, 4),(5, 4, 3, 7))) == set((3, 4))",
      "assert set(similar_elements((11, 12, 14, 13),(17, 15, 14, 13))) == set((13, 14))"
    ],
    "test": "import numpy as np\nfrom math import inf\n\ndef is_floats(x) -> bool:\n    # check if it is float; List[float]; Tuple[float]\n    if isinstance(x, float):\n        return True\n    if isinstance(x, (list, tuple)):\n        return all(isinstance(i, fl ... [TRUNCATED] ... wvS', 'tUqF', 'ITntCqEvPi', 'kx'), (1, 2, 3, 4, 5, 6, 7, 8, 9), (11, 12, 13, 14, 15, 16, 17, 19, 20), (19, 5), (1, 2, 3, 6, 7, 8, 9, 10, 12)]\nfor i, (inp, exp) in enumerate(zip(inputs, results)):\n    assertion(similar_elements(*inp), exp, 0)\n"
  }
}

注:部分内容因展示需要已被截断。

提示模板#

提示模板:

You are an expert Python programmer, and here is your task: {question} Your code should pass these tests:

{tests}

沙箱配置#

此基准测试需要在沙箱环境中执行代码。

{
  "image": "python:3.11-slim",
  "tools_config": {
    "shell_executor": {},
    "python_executor": {}
  }
}

使用方法#

通过命令行(CLI)#

evalscope eval \
    --model YOUR_MODEL \
    --api-url OPENAI_API_COMPAT_URL \
    --api-key EMPTY_TOKEN \
    --datasets mbpp_plus \
    --use-sandbox \
    --limit 10  # 正式评估时请移除此行

通过 Python#

from evalscope import run_task
from evalscope.config import TaskConfig

task_cfg = TaskConfig(
    model='YOUR_MODEL',
    api_url='OPENAI_API_COMPAT_URL',
    api_key='EMPTY_TOKEN',
    datasets=['mbpp_plus'],
    use_sandbox=True,
    limit=10,  # 正式评估时请移除此行
)

run_task(task_cfg=task_cfg)