MTEB 评测数据集#

CMTEB 评测数据集#

名称	Hub链接	描述	类型	类别	测试样本数量
T2Retrieval	C-MTEB/T2Retrieval	T2Ranking：一个大规模的中文段落排序基准	检索	s2p	24,832
MMarcoRetrieval	C-MTEB/MMarcoRetrieval	mMARCO是MS MARCO段落排序数据集的多语言版本	检索	s2p	7,437
DuRetrieval	C-MTEB/DuRetrieval	一个大规模的中文网页搜索引擎段落检索基准	检索	s2p	4,000
CovidRetrieval	C-MTEB/CovidRetrieval	COVID-19新闻文章	检索	s2p	949
CmedqaRetrieval	C-MTEB/CmedqaRetrieval	在线医疗咨询文本	检索	s2p	3,999
EcomRetrieval	C-MTEB/EcomRetrieval	从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集	检索	s2p	1,000
MedicalRetrieval	C-MTEB/MedicalRetrieval	从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集	检索	s2p	1,000
VideoRetrieval	C-MTEB/VideoRetrieval	从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集	检索	s2p	1,000
T2Reranking	C-MTEB/T2Reranking	T2Ranking：一个大规模的中文段落排序基准	重新排序	s2p	24,382
MMarcoReranking	C-MTEB/MMarco-reranking	mMARCO是MS MARCO段落排序数据集的多语言版本	重新排序	s2p	7,437
CMedQAv1	C-MTEB/CMedQAv1-reranking	中文社区医疗问答	重新排序	s2p	2,000
CMedQAv2	C-MTEB/CMedQAv2-reranking	中文社区医疗问答	重新排序	s2p	4,000
Ocnli	C-MTEB/OCNLI	原始中文自然语言推理数据集	配对分类	s2s	3,000
Cmnli	C-MTEB/CMNLI	中文多类别自然语言推理	配对分类	s2s	139,000
CLSClusteringS2S	C-MTEB/CLSClusteringS2S	从CLS数据集中聚类标题。基于主要类别的13个集合的聚类。	聚类	s2s	10,000
CLSClusteringP2P	C-MTEB/CLSClusteringP2P	从CLS数据集中聚类标题+摘要。基于主要类别的13个集合的聚类。	聚类	p2p	10,000
ThuNewsClusteringS2S	C-MTEB/ThuNewsClusteringS2S	从THUCNews数据集中聚类标题	聚类	s2s	10,000
ThuNewsClusteringP2P	C-MTEB/ThuNewsClusteringP2P	从THUCNews数据集中聚类标题+摘要	聚类	p2p	10,000
ATEC	C-MTEB/ATEC	ATEC NLP句子对相似性竞赛	STS	s2s	20,000
BQ	C-MTEB/BQ	银行问题语义相似性	STS	s2s	10,000
LCQMC	C-MTEB/LCQMC	大规模中文问题匹配语料库	STS	s2s	12,500
PAWSX	C-MTEB/PAWSX	翻译的PAWS评测对	STS	s2s	2,000
STSB	C-MTEB/STSB	将STS-B翻译成中文	STS	s2s	1,360
AFQMC	C-MTEB/AFQMC	蚂蚁金服问答匹配语料库	STS	s2s	3,861
QBQTC	C-MTEB/QBQTC	QQ浏览器查询标题语料库	STS	s2s	5,000
TNews	C-MTEB/TNews-classification	新闻短文本分类	分类	s2s	10,000
IFlyTek	C-MTEB/IFlyTek-classification	应用描述的长文本分类	分类	s2s	2,600
Waimai	C-MTEB/waimai-classification	外卖平台用户评论的情感分析	分类	s2s	1,000
OnlineShopping	C-MTEB/OnlineShopping-classification	在线购物网站用户评论的情感分析	分类	s2s	1,000
MultilingualSentiment	C-MTEB/MultilingualSentiment-classification	一组按三类分组的多语言情感数据集--正面、中立、负面	分类	s2s	3,000
JDReview	C-MTEB/JDReview-classification	iPhone的评论	分类	s2s	533

对于检索任务，从整个语料库中抽样100,000个候选项（包括真实值），以降低推理成本。

MTEB 评测数据集#

参见

参考：MTEB相关任务