RAG 评测调研:框架、指标和方法#
RAG(检索增强生成)流程#
框架#
1. LlamaIndex#
简介: 介绍了如何评测多模态检索生成(RAG)系统,重点展示了如何使用llama-index库中的评测工具对检索器和生成器进行评测。通过美国手语(ASL)字母表的图像和文本描述作为用例,演示了如何加载数据、构建索引、设置RAG系统,并进行检索和生成评测。
2. LangChain#
Multi-modal RAG
3. Ragas#
简介: RAGAs是一个用于评测检索增强生成(RAG)应用的评测框架,它的核心目标是提供一套综合性的评测指标和方法,以量化地评测RAG管道(RAG Pipeline)在不同组件层面上的性能。RAGAs特别适用于那些结合了检索(Retrieval)和生成(Generation)两个主要组件的RAG系统,支持Langchain 和 Llama-Index。
评测流程
开始:启动准备和设置RAG应用的过程。
数据准备:加载和分块处理文档。
设置向量数据库:生成向量嵌入并存储在向量数据库中。
设置检索器组件:基于向量数据库设置检索器。
组合RAG管道:结合检索器、提示模板和LLM组成RAG管道。
准备评测数据:准备问题和对应的真实答案。
构建数据集:通过推理准备数据并构建用于评测的数据集。
评测RAG应用:导入评测指标并对RAG应用进行评测。
结束:完成评测过程。
评测体系
无参考评测:RAGAs最初设计为一种“无参考”评测框架,意味着它不依赖于人工注释的真实标签,而是利用大型语言模型(LLM)进行评测。
组件级评测:RAGAs允许对RAG管道的两个主要组件——检索器和生成器——分别进行评测。这种分离评测方法有助于精确地识别管道中的性能瓶颈。
综合性评测指标:RAGAs提供了一系列评测指标,包括上下文精度(Context Precision)、上下文召回(Context Recall)、忠实度(Faithfulness)和答案相关性(Answer Relevancy)。这些指标共同构成了RAGAs评分,用于全面评测RAG管道的性能。
4. RAGChecker#
简介: RAGChecker 是一个高级自动评测框架,旨在评测和诊断检索增强生成(RAG)系统。它提供了一套全面的指标和工具,用于深入分析 RAG 性能。该框架包括整体评测、诊断指标、细粒度评测、基准数据集和元评测。
5. TruLens#
简介: 开发者构建原型后,通过TruLens进行监测和记录,指定所需的反馈,并在用户界面中迭代和比较应用版本,支持Langchain 和 Llama-Index。
6. FlagEmbedding#
简介: FlagEmbedding是一个专注于检索增强型大型语言模型(LLMs)的项目,包含多个子项目,如长文本LLM、微调LM、嵌入模型、重排模型和基准测试。
7. Continuous Eval#
简介: continuous-eval 是一个开源软件包,旨在为基于大型语言模型(LLM)的应用程序提供数据驱动的评测。它通过模块化评测、综合度量库、利用用户反馈、合成数据集生成等功能,支持对LLM应用进行细粒度的评测。该工具还支持自定义指标和批量处理优化,以及通过Relari Cloud生成合成数据集。
相关文章#
RAG Survey: Retrieval-Augmented Generation for Large Language Models: A Survey