RAGEval#

本项目支持RAG和多模态RAG的独立评测(Independent Evaluation)和端到端评测(End-to-End Evaluation)：

独立评测方法：单独评测检索模块，其中检索模块评测指标包括指标包括 命中率(Hit Rate)、平均排名倒数(Mean Reciprocal Rank, MRR)、归一化折扣累积增益(Normalized Discounted Cumulative Gain, NDCG)、准确率(Precision) 等，这些指标用于测量系统在根据查询或任务排名项目方面的有效性。
端到端评测方法：评测RAG模型对给定输入生成的最终响应，包括模型生成答案与输入查询的相关性和对齐程度。从内容生成目标视角来评测可以将评测划分为无参考答案和有参考答案：无参考答案评测指标包括上下文相关性(Context Relevance)、忠实度(Faithfulness) 等；而有参考答案评测指标包括准确率(Accuracy)、BLEU、ROUGE等。

参见

RAG评测相关调研

本框架支持使用MTEB/CMTEB进行文本检索模块的独立评测，使用CLIP Benchmark进行多模态图文检索模块的独立评测，以及使用RAGAS进行RAG和多模态RAG端到端生成评测。

MTEB/CMTEB

进行检索模块的独立评测，支持embedding模型和reranker模型。

CLIP Benchmark

进行多模态图文检索模块的独立评测，支持CLIP模型。

RAGAS

进行RAG和多模态RAG端到端生成评测，且支持自动生成评测集。