AIGC评测集#
以下是支持的AIGC评测集列表,点击数据集标准名称可跳转详细信息。
数据集名称 |
标准名称 |
任务类别 |
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
数据集详情#
EvalMuse#
数据集名称:
evalmuse数据集介绍:
EvalMuse文本到图像基准,用于评估精细生成图像的质量和语义一致性
任务类别:
TextToImage评估指标:
FGA_BLIP2Score聚合方法:
mean是否需要LLM Judge: 否
默认提示方式: 0-shot
数据集子集:
EvalMuse
GEdit-Bench#
数据集名称:
gedit数据集ID: stepfun-ai/GEdit-Bench
数据集介绍:
GEdit-Bench 是基于真实使用场景构建的图像编辑基准,旨在支持对图像编辑模型进行更真实、全面的评估。
任务类别:
ImageEditing评估指标:
Perceptual Similarity,Semantic Consistency聚合方法:
mean是否需要LLM Judge: 是
默认提示方式: 0-shot
数据集子集:
background_change,color_alter,material_alter,motion_change,ps_human,style_change,subject-add,subject-remove,subject-replace,text_change,tone_transfer额外参数:
{
"language": {
"type": "str",
"description": "Language of the instruction. Choices: ['en', 'cn'].",
"value": "en",
"choices": [
"en",
"cn"
]
}
}
GenAI-Bench#
数据集名称:
genai_bench数据集介绍:
GenAI-Bench 文本到图像基准,包含 1600 个文本到图像任务的提示。
任务类别:
TextToImage评估指标:
VQAScore聚合方法:
mean是否需要LLM Judge: 否
默认提示方式: 0-shot
数据集子集:
GenAI-Bench-1600
general_t2i#
数据集名称:
general_t2i数据集ID: general_t2i
数据集介绍:
通用文生图基准测试
任务类别:
Custom,TextToImage评估指标:
PickScore聚合方法:
mean是否需要LLM Judge: 否
默认提示方式: 0-shot
数据集子集:
default
HPD-v2#
数据集名称:
hpdv2数据集介绍:
HPDv2 文本到图像基准。基于人类偏好的评估指标,训练于人类偏好数据集(HPD v2)
任务类别:
TextToImage评估指标:
HPSv2.1Score聚合方法:
mean是否需要LLM Judge: 否
默认提示方式: 0-shot
数据集子集:
HPDv2
TIFA-160#
数据集名称:
tifa160数据集介绍:
TIFA-160 文本到图像基准测试
任务类别:
TextToImage评估指标:
PickScore聚合方法:
mean是否需要LLM Judge: 否
默认提示方式: 0-shot
数据集子集:
TIFA-160