Embedding模型#
自定义文本检索评测#
1. 构建数据集#
构建如下格式数据:
retrieval_data
├── corpus.jsonl
├── queries.jsonl
└── qrels
└── test.tsv
其中:
corpus.jsonl
: 语料库文件,每行一个json,格式为{"_id": "xxx", "text": "xxx"}
,_id为语料库的id,text为语料库的文本。例如:{"_id": "doc1", "text": "气候变化正在导致更极端的天气模式。"} {"_id": "doc2", "text": "今天股市大幅上涨,科技股领涨。"} {"_id": "doc3", "text": "人工智能正在通过自动化任务和提供见解来改变各种行业。"} {"_id": "doc4", "text": "随着技术的进步,风能和太阳能等可再生能源变得越来越普及。"} {"_id": "doc5", "text": "最新研究表明,均衡饮食和定期锻炼可以显著改善心理健康。"} {"_id": "doc6", "text": "虚拟现实正在教育、娱乐和培训方面创造新的机会。"} {"_id": "doc7", "text": "由于环保优势和电池技术的进步,电动汽车越来越受欢迎。"} {"_id": "doc8", "text": "太空探索任务正在揭示关于我们的太阳系及其以外的新信息。"} {"_id": "doc9", "text": "区块链技术在加密货币之外还有潜在的应用,包括供应链管理和安全投票系统。"} {"_id": "doc10", "text": "远程工作的好处包括更大的灵活性和减少通勤时间。"}
queries.jsonl
: 查询文件,每行一个json,格式为{"_id": "xxx", "text": "xxx"}
,_id为查询的id,text为查询的文本。例如:{"_id": "query1", "text": "气候变化的影响是什么?"} {"_id": "query2", "text": "今天股市上涨的原因是什么?"} {"_id": "query3", "text": "人工智能如何改变行业?"} {"_id": "query4", "text": "可再生能源有哪些进展?"} {"_id": "query5", "text": "均衡饮食如何改善心理健康?"} {"_id": "query6", "text": "虚拟现实创造了哪些新机会?"} {"_id": "query7", "text": "为什么电动汽车越来越受欢迎?"} {"_id": "query8", "text": "太空探索任务揭示了哪些新信息?"} {"_id": "query9", "text": "区块链技术在加密货币之外有哪些应用?"} {"_id": "query10", "text": "远程工作的好处是什么?"}
qrels
: 评测文件,可包含多个tsv
文件,格式为query-id doc-id score
,query-id为查询的id,doc-id为语料库的id,score为语料库与查询的相关度打分。例如:query-id corpus-id score query1 doc1 1 query2 doc2 1 query3 doc3 1 query4 doc4 1 query5 doc5 1 query6 doc6 1 query7 doc7 1 query8 doc8 1 query9 doc9 1 query10 doc10 1
2. 构建配置文件#
编写的配置文件示例如下:
task_cfg = {
"eval_backend": "RAGEval",
"eval_config": {
"tool": "MTEB",
"model": [
{
"model_name_or_path": "AI-ModelScope/m3e-base",
"pooling_mode": None, # load from model config
"max_seq_length": 512,
"prompt": "",
"model_kwargs": {"torch_dtype": "auto"},
"encode_kwargs": {
"batch_size": 128,
},
}
],
"eval": {
"tasks": ["CustomRetrieval"],
"dataset_path": "custom_eval/text/retrieval",
"verbosity": 2,
"output_folder": "outputs",
"overwrite_results": True,
"limits": 500,
},
},
}
参数说明
基本参数与默认配置一致,需要修改的参数有:
eval
:tasks
: 评测任务,必须为CustomRetrieval
。dataset_path
: 数据集路径,为自定义数据集的路径。
3. 运行评测#
from evalscope.run import run_task
run_task(task_cfg=task_cfg)