AIGC评测集#

以下是支持的AIGC评测集列表，点击数据集标准名称可跳转详细信息。

数据集详情#

数据集名称: evalmuse
数据集ID: AI-ModelScope/T2V-Eval-Prompts
数据集描述:

EvalMuse Text-to-Image Benchmark. Used for evaluating the quality and semantic alignment of finely generated images
任务类别: TextToImage
评估指标: FGA_BLIP2Score
需要LLM Judge: 否
默认提示方式: 0-shot
数据集子集: EvalMuse

数据集名称: gedit
数据集ID: stepfun-ai/GEdit-Bench
数据集描述:

GEdit-Bench Image Editing Benchmark, grounded in real-world usages is developed to support more authentic and comprehensive evaluation of image editing models.
任务类别: ImageEditing
评估指标: Perceptual Similarity, Semantic Consistency
需要LLM Judge: 是
默认提示方式: 0-shot
数据集子集: background_change, color_alter, material_alter, motion_change, ps_human, style_change, subject-add, subject-remove, subject-replace, text_change, tone_transfer
额外参数:

{
    "language": "# language of the instruction, choose from ['en', 'cn'], default to `en`"
}

数据集名称: genai_bench
数据集ID: AI-ModelScope/T2V-Eval-Prompts
数据集描述:

GenAI-Bench Text-to-Image Benchmark. Includes 1600 prompts for text-to-image task.
任务类别: TextToImage
评估指标: VQAScore
需要LLM Judge: 否
默认提示方式: 0-shot
数据集子集: GenAI-Bench-1600

数据集名称: hpdv2
数据集ID: AI-ModelScope/T2V-Eval-Prompts
数据集描述:

HPDv2 Text-to-Image Benchmark. Evaluation metrics based on human preferences, trained on the Human Preference Dataset (HPD v2)
任务类别: TextToImage
评估指标: HPSv2.1Score
需要LLM Judge: 否
默认提示方式: 0-shot
数据集子集: HPDv2