AIGC评测集#

以下是支持的AIGC评测集列表,点击数据集标准名称可跳转详细信息。

数据集名称

标准名称

任务类别

evalmuse

EvalMuse

TextToImage

gedit

GEdit-Bench

ImageEditing

genai_bench

GenAI-Bench

TextToImage

general_t2i

general_t2i

Custom, TextToImage

hpdv2

HPD-v2

TextToImage

tifa160

TIFA-160

TextToImage


数据集详情#

EvalMuse#

返回目录

  • 数据集名称: evalmuse

  • 数据集ID: AI-ModelScope/T2V-Eval-Prompts

  • 数据集介绍:

    EvalMuse文本到图像基准,用于评估精细生成图像的质量和语义一致性

  • 任务类别: TextToImage

  • 评估指标: FGA_BLIP2Score

  • 聚合方法: mean

  • 是否需要LLM Judge: 否

  • 默认提示方式: 0-shot

  • 评测数据集划分: test

  • 数据集子集: EvalMuse


GEdit-Bench#

返回目录

  • 数据集名称: gedit

  • 数据集ID: stepfun-ai/GEdit-Bench

  • 数据集介绍:

    GEdit-Bench 是基于真实使用场景构建的图像编辑基准,旨在支持对图像编辑模型进行更真实、全面的评估。

  • 任务类别: ImageEditing

  • 评估指标: Perceptual Similarity, Semantic Consistency

  • 聚合方法: mean

  • 是否需要LLM Judge: 是

  • 默认提示方式: 0-shot

  • 评测数据集划分: train

  • 数据集子集: background_change, color_alter, material_alter, motion_change, ps_human, style_change, subject-add, subject-remove, subject-replace, text_change, tone_transfer

  • 额外参数:

{
    "language": {
        "type": "str",
        "description": "Language of the instruction. Choices: ['en', 'cn'].",
        "value": "en",
        "choices": [
            "en",
            "cn"
        ]
    }
}

GenAI-Bench#

返回目录

  • 数据集名称: genai_bench

  • 数据集ID: AI-ModelScope/T2V-Eval-Prompts

  • 数据集介绍:

    GenAI-Bench 文本到图像基准,包含 1600 个文本到图像任务的提示。

  • 任务类别: TextToImage

  • 评估指标: VQAScore

  • 聚合方法: mean

  • 是否需要LLM Judge: 否

  • 默认提示方式: 0-shot

  • 评测数据集划分: test

  • 数据集子集: GenAI-Bench-1600


general_t2i#

返回目录

  • 数据集名称: general_t2i

  • 数据集ID: general_t2i

  • 数据集介绍:

    通用文生图基准测试

  • 任务类别: Custom, TextToImage

  • 评估指标: PickScore

  • 聚合方法: mean

  • 是否需要LLM Judge: 否

  • 默认提示方式: 0-shot

  • 评测数据集划分: test

  • 数据集子集: default


HPD-v2#

返回目录

  • 数据集名称: hpdv2

  • 数据集ID: AI-ModelScope/T2V-Eval-Prompts

  • 数据集介绍:

    HPDv2 文本到图像基准。基于人类偏好的评估指标,训练于人类偏好数据集(HPD v2)

  • 任务类别: TextToImage

  • 评估指标: HPSv2.1Score

  • 聚合方法: mean

  • 是否需要LLM Judge: 否

  • 默认提示方式: 0-shot

  • 评测数据集划分: test

  • 数据集子集: HPDv2


TIFA-160#

返回目录

  • 数据集名称: tifa160

  • 数据集ID: AI-ModelScope/T2V-Eval-Prompts

  • 数据集介绍:

    TIFA-160 文本到图像基准测试

  • 任务类别: TextToImage

  • 评估指标: PickScore

  • 聚合方法: mean

  • 是否需要LLM Judge: 否

  • 默认提示方式: 0-shot

  • 评测数据集划分: test

  • 数据集子集: TIFA-160