MTEB 评测数据集#
CMTEB 评测数据集#
名称 |
Hub链接 |
描述 |
类型 |
类别 |
测试样本数量 |
|---|---|---|---|---|---|
T2Ranking:一个大规模的中文段落排序基准 |
检索 |
s2p |
24,832 |
||
mMARCO是MS MARCO段落排序数据集的多语言版本 |
检索 |
s2p |
7,437 |
||
一个大规模的中文网页搜索引擎段落检索基准 |
检索 |
s2p |
4,000 |
||
COVID-19新闻文章 |
检索 |
s2p |
949 |
||
在线医疗咨询文本 |
检索 |
s2p |
3,999 |
||
从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集 |
检索 |
s2p |
1,000 |
||
从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集 |
检索 |
s2p |
1,000 |
||
从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集 |
检索 |
s2p |
1,000 |
||
T2Ranking:一个大规模的中文段落排序基准 |
重新排序 |
s2p |
24,382 |
||
mMARCO是MS MARCO段落排序数据集的多语言版本 |
重新排序 |
s2p |
7,437 |
||
中文社区医疗问答 |
重新排序 |
s2p |
2,000 |
||
中文社区医疗问答 |
重新排序 |
s2p |
4,000 |
||
原始中文自然语言推理数据集 |
配对分类 |
s2s |
3,000 |
||
中文多类别自然语言推理 |
配对分类 |
s2s |
139,000 |
||
从CLS数据集中聚类标题。基于主要类别的13个集合的聚类。 |
聚类 |
s2s |
10,000 |
||
从CLS数据集中聚类标题+摘要。基于主要类别的13个集合的聚类。 |
聚类 |
p2p |
10,000 |
||
从THUCNews数据集中聚类标题 |
聚类 |
s2s |
10,000 |
||
从THUCNews数据集中聚类标题+摘要 |
聚类 |
p2p |
10,000 |
||
ATEC NLP句子对相似性竞赛 |
STS |
s2s |
20,000 |
||
银行问题语义相似性 |
STS |
s2s |
10,000 |
||
大规模中文问题匹配语料库 |
STS |
s2s |
12,500 |
||
翻译的PAWS评测对 |
STS |
s2s |
2,000 |
||
将STS-B翻译成中文 |
STS |
s2s |
1,360 |
||
蚂蚁金服问答匹配语料库 |
STS |
s2s |
3,861 |
||
QQ浏览器查询标题语料库 |
STS |
s2s |
5,000 |
||
新闻短文本分类 |
分类 |
s2s |
10,000 |
||
应用描述的长文本分类 |
分类 |
s2s |
2,600 |
||
外卖平台用户评论的情感分析 |
分类 |
s2s |
1,000 |
||
在线购物网站用户评论的情感分析 |
分类 |
s2s |
1,000 |
||
一组按三类分组的多语言情感数据集--正面、中立、负面 |
分类 |
s2s |
3,000 |
||
iPhone的评论 |
分类 |
s2s |
533 |
对于检索任务,从整个语料库中抽样100,000个候选项(包括真实值),以降低推理成本。
MTEB 评测数据集#
参见
参考:MTEB相关任务