【技术实现步骤摘要】
本公开涉及数据处理,具体涉及一种针对检索增强生成rag系统的评估方法及装置。
技术介绍
1、在人工智能领域,尤其是随着大型语言模型的广泛应用,检索增强生成(rag)系统成为利用大模型能力的典型代表。rag系统通过巧妙地结合检索和生成模块,展现出在信息回复方面提供更丰富和准确内容的潜力。它能够利用检索模块从海量数据中快速定位相关信息,再借助生成模块将这些信息整合为有逻辑、有针对性的回复,为用户提供更有价值的服务。
2、然而,当前在全面、准确地评估rag系统性能方面面临诸多挑战。传统的评估方法存难以有效衡量长文本回复的质量;由于长文本回复往往包含复杂的结构和丰富的信息,传统评估方式缺乏有效的手段来深入分析其中的准确性、逻辑性和完整性,容易忽略长文本中的细节问题,导致对其质量的评估不够全面和准确。同时,传统评估指标往往基于简单的文本匹配或表面特征,无法充分考虑人类在理解和判断信息时所关注的语义理解、逻辑连贯性等深层次因素,导致评估结果与人类实际感受存在较大偏差。
3、因此,现有技术难以对rag系统进行深入、细致的剖析,无法满足对系统性能全面、精准评估的需求,从而限制了rag系统在实际应用中的进一步优化和拓展。因此,迫切需要一种新的评估框架来克服这些问题,实现对rag系统性能的有效评估。
技术实现思路
1、有鉴于此,本申请实施例提供了一种针对检索增强生成rag系统的评估方法及装置,可以能够从多个方面对rag系统进行性能评估,为rag系统在人工智能领域的更广泛、更高效
2、第一方面,本申请实施例提供了一种针对检索增强生成rag系统的评估方法,包括:
3、获取多个预设问答文本以及每个所述预设问答文本对应的标准答复文本;
4、将所述预设问答文本输入目标检索增强生成rag系统中,以获取第一答复文本和检索上下文文本;所述检索上下文文本为所述目标检索增强生成rag系统在生成所述第一答复文本时所检索到的上下文文本;
5、获取所述标准答复文本对应的标准声明集合、所述第一答复文本对应的第一声明集合、以及所述检索上下文文本对应的检索上下文声明集合;
6、结合所述标准声明集合、所述第一声明集合以及所述检索上下文声明集合中每个声明的语义进行声明比较,生成所述第一声明集合中的正确声明子集、错误声明子集、缺失的正确声明子集以及不相关声明子集;
7、基于所述正确声明子集、所述错误声明子集、所述缺失的正确声明子集以及所述不相关声明子集进行分析计算,获取第一性能分析结果,并基于多个所述预设问答文本、多个所述第一答复文本,以及多个所述检索上下文文本之间的所述第一性能分析结果,生成所述目标rag系统的目标综合性能评估结果。
8、作为本申请实施例一种可选的实施方式,所述获取所述标准答复文本对应的标准声明集合、所述第一答复文本对应的第一声明集合、以及所述检索上下文文本对应的检索上下文声明集合,包括:
9、通过第一大语言模型对所述标准答复文本、所述第一答复文本以及所述检索上下文文本进行声明抽取,获取所述标准声明集合、所述第一声明集合、以及所述检索上下文声明集合。
10、作为本申请实施例一种可选的实施方式,所述结合所述标准声明集合、所述第一声明集合以及所述检索上下文声明集合中每个声明的语义进行声明比较,生成所述第一声明集合中的正确声明子集、错误声明子集、缺失的正确声明子集以及不相关声明子集。,包括:
11、获取所述第一声明集合中每个声明对应的语义、所述标准声明集合中每个声明对应的语义、以及所述检索上下文声明集合中每个声明对应的语义;
12、基于所述第一声明集合和所述标准声明集合中每个声明对应的语义,获取所述第一声明集合中的声明在所述标准声明集合中的第一占比参数;所述第一占比参数用于表征所述第一答复文本的正确性;
13、基于所述第一声明集合和所述标准声明集合中每个声明对应的语义,获取所述标准声明集合中的声明在所述第一声明集合中的第二占比参数;所述第二占比参数用于表征所述第一答复文本的完整性;
14、基于所述第一声明集合和所述检索上下文声明集合中每个声明对应的语义,获取所述第一声明集合中的声明在所述检索上下文声明集合中的第三占比参数;所述第三占比参数用于表征所述第一答复文本的忠实性;
15、基于所述标准声明集合和所述检索上下文声明集合中每个声明对应的语义,获取所述标准声明集合中的声明在所述检索上下文声明集合中的第四占比参数;所述第四占比参数用于表征所述第一答复文本的质量;
16、根据所述第一占比参数、所述第二占比参数、所述第三占比参数、所述第四占比参数,生成所述声明比较结果。
17、作为本申请实施例一种可选的实施方式,在所述基于所述正确声明子集、所述错误声明子集、所述缺失的正确声明子集以及所述不相关声明子集进行分析计算,获取第一性能分析结果之前,所述方法还包括:
18、基于所述正确声明子集、所述错误声明子集、所述缺失的正确声明子集、所述不相关声明、所述检索上下文声明集合中相关上检索下文声明子集、不相关检索上下文声明子集中每个子集中的声明数量,获取所述目标rag系统的整体性能指标集合、检索模块的指标集合以及答复生成模块的指标集合。作为本申请实施例一种可选的实施方式,所述方法还包括:
19、对所述正确声明子集和所述错误声明子集的声明数量进行加和获取第一总和值,并获取所述正确声明子集的声明数量与所述第一总和值的比值,以生成整体精度值;
20、对所述正确声明子集和所述缺失的声明子集的声明数量进行加和获取第二总和值,并获取所述正确声明子集的声明数量与所述第二总和值的比值,以生成整体召回值;
21、基于所述整体精度值和所述整体召回值生成所述整体性能指标集合。
22、作为本申请实施例一种可选的实施方式,所述方法还包括:
23、对所述相关上检索下文声明子集和所述不相关检索上下文声明子集的声明数量进行加和获取第三总和值,并获取所述相关检索上下文声明子集的声明数量与所述第三总和值的比值,以生成检索上下文精度值;
24、对所述相关上下文声明子集中的正确声明和缺失的正确声明进行加和获取第四总和值,并获取所述第四总和值与第二总和值的比值,以生成检索上下文精度值;
25、基于所述检索上下文精度值和所述检索上下文精度值生成所述检索模块性能指标集合。
26、作为本申请实施例一种可选的实施方式,所述方法还包括:
27、获取所述相关上下文声明子集中的所述正确声明的第一数值,并获取所述第一数值与所述第四总和值的比值,以生成上下文利用率;
28、获取属于所述相关上下文声明子集与所述不相关上下文声明子集的并集中的所述错误声明的第二数值,并获取所述第二数值与所述第二总和值的比值,以生成噪音敏感度;
29、获取不属于所述相关上下文声明子集与本文档来自技高网...
【技术保护点】
1.一种针对检索增强生成RAG系统的评估方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述标准答复文本对应的标准声明集合、所述第一答复文本对应的第一声明集合、以及所述检索上下文文本对应的检索上下文声明集合,包括:
3.根据权利要求1所述的方法,其特征在于,所述结合所述标准声明集合、所述第一声明集合以及所述检索上下文声明集合中每个声明的语义进行声明比较,生成所述第一声明集合中的正确声明子集、错误声明子集、缺失的正确声明子集以及不相关声明子集,包括:
4.根据权利要求1所述的方法,其特征在于,在所述基于所述正确声明子集、所述错误声明子集、所述缺失的正确声明子集以及所述不相关声明子集进行分析计算,获取第一性能分析结果之前,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求6任一项所述的方法,其特征在于,所述方法还包括:
8.一种针对检索增强生成RAG系统的评估装置,其特征
9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在执行计算机程序时,使得所述电子设备实现权利要求1-7任一项所述的检索增强生成RAG系统的评估方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现权利要求1-7任一项所述的检索增强生成RAG系统的评估方法。
...【技术特征摘要】
1.一种针对检索增强生成rag系统的评估方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述标准答复文本对应的标准声明集合、所述第一答复文本对应的第一声明集合、以及所述检索上下文文本对应的检索上下文声明集合,包括:
3.根据权利要求1所述的方法,其特征在于,所述结合所述标准声明集合、所述第一声明集合以及所述检索上下文声明集合中每个声明的语义进行声明比较,生成所述第一声明集合中的正确声明子集、错误声明子集、缺失的正确声明子集以及不相关声明子集,包括:
4.根据权利要求1所述的方法,其特征在于,在所述基于所述正确声明子集、所述错误声明子集、所述缺失的正确声明子集以及所述不相关声明子集进行分析计算,获取第一性能分析结果之前,所述方法还包括:
...【专利技术属性】
技术研发人员:杨谋鹏,苏良缘,
申请(专利权)人:中电云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。