MTEB 评测数据集#

CMTEB 评测数据集#

名称

Hub链接

描述

类型

类别

测试样本数量

T2Retrieval

C-MTEB/T2Retrieval

T2Ranking:一个大规模的中文段落排序基准

检索

s2p

24,832

MMarcoRetrieval

C-MTEB/MMarcoRetrieval

mMARCO是MS MARCO段落排序数据集的多语言版本

检索

s2p

7,437

DuRetrieval

C-MTEB/DuRetrieval

一个大规模的中文网页搜索引擎段落检索基准

检索

s2p

4,000

CovidRetrieval

C-MTEB/CovidRetrieval

COVID-19新闻文章

检索

s2p

949

CmedqaRetrieval

C-MTEB/CmedqaRetrieval

在线医疗咨询文本

检索

s2p

3,999

EcomRetrieval

C-MTEB/EcomRetrieval

从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集

检索

s2p

1,000

MedicalRetrieval

C-MTEB/MedicalRetrieval

从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集

检索

s2p

1,000

VideoRetrieval

C-MTEB/VideoRetrieval

从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集

检索

s2p

1,000

T2Reranking

C-MTEB/T2Reranking

T2Ranking:一个大规模的中文段落排序基准

重新排序

s2p

24,382

MMarcoReranking

C-MTEB/MMarco-reranking

mMARCO是MS MARCO段落排序数据集的多语言版本

重新排序

s2p

7,437

CMedQAv1

C-MTEB/CMedQAv1-reranking

中文社区医疗问答

重新排序

s2p

2,000

CMedQAv2

C-MTEB/CMedQAv2-reranking

中文社区医疗问答

重新排序

s2p

4,000

Ocnli

C-MTEB/OCNLI

原始中文自然语言推理数据集

配对分类

s2s

3,000

Cmnli

C-MTEB/CMNLI

中文多类别自然语言推理

配对分类

s2s

139,000

CLSClusteringS2S

C-MTEB/CLSClusteringS2S

从CLS数据集中聚类标题。基于主要类别的13个集合的聚类。

聚类

s2s

10,000

CLSClusteringP2P

C-MTEB/CLSClusteringP2P

从CLS数据集中聚类标题+摘要。基于主要类别的13个集合的聚类。

聚类

p2p

10,000

ThuNewsClusteringS2S

C-MTEB/ThuNewsClusteringS2S

从THUCNews数据集中聚类标题

聚类

s2s

10,000

ThuNewsClusteringP2P

C-MTEB/ThuNewsClusteringP2P

从THUCNews数据集中聚类标题+摘要

聚类

p2p

10,000

ATEC

C-MTEB/ATEC

ATEC NLP句子对相似性竞赛

STS

s2s

20,000

BQ

C-MTEB/BQ

银行问题语义相似性

STS

s2s

10,000

LCQMC

C-MTEB/LCQMC

大规模中文问题匹配语料库

STS

s2s

12,500

PAWSX

C-MTEB/PAWSX

翻译的PAWS评测对

STS

s2s

2,000

STSB

C-MTEB/STSB

将STS-B翻译成中文

STS

s2s

1,360

AFQMC

C-MTEB/AFQMC

蚂蚁金服问答匹配语料库

STS

s2s

3,861

QBQTC

C-MTEB/QBQTC

QQ浏览器查询标题语料库

STS

s2s

5,000

TNews

C-MTEB/TNews-classification

新闻短文本分类

分类

s2s

10,000

IFlyTek

C-MTEB/IFlyTek-classification

应用描述的长文本分类

分类

s2s

2,600

Waimai

C-MTEB/waimai-classification

外卖平台用户评论的情感分析

分类

s2s

1,000

OnlineShopping

C-MTEB/OnlineShopping-classification

在线购物网站用户评论的情感分析

分类

s2s

1,000

MultilingualSentiment

C-MTEB/MultilingualSentiment-classification

一组按三类分组的多语言情感数据集--正面、中立、负面

分类

s2s

3,000

JDReview

C-MTEB/JDReview-classification

iPhone的评论

分类

s2s

533

对于检索任务,从整个语料库中抽样100,000个候选项(包括真实值),以降低推理成本。

MTEB 评测数据集#

参见

参考:MTEB相关任务