System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理的检索增强生成,尤其涉及一种基于分支式拼接的低成本检索增强生成评测方法。
技术介绍
1、检索增强生成策略rag因其能够显著提升大型语言模型在回答问题时的表现,而备受瞩目。rag的基本原理是先从语料库中检索相关信息,再将这些信息与原始问题一起输入到语言模型中,从而增强模型的知识和回答能力,改善大模型在一些方面的不足:如训练数据不全、无垂直领域数据、容易出现幻觉等。然而,尽管rag策略非常有效,其实施过程却需要大量的调优。因此,在rag评估领域,还存在着大量的需求和挑战,具体包括以下几个方面:
2、检测方法的可复现性。不同的检索模型性能会有所不同,评估结果的表现也会因为数据集的选取导致差异,以致实验结果难以一致再现。为了保证研究的严谨性和结果的可信度,需要建立标准化的评估流程,拥有较低的复现门槛,更有利于方法和流程的统一。
3、信息的实用有效性。rag评估的内容应全面覆盖模型的检索效率、信息融合能力以及最终的生成质量。因此,评估过程不仅要关注检索模块能否从数据中检索出与查询高度相关的信息,还要深入评估这些相关信息在排名列表中的分布情况,特别是前几项结果的排序质量。仅仅统计相关句子的数量比例并不能全面评估搜索结果的质量,因为它忽略了相关项目在排名列表中的位置。
4、主观性问题。某些任务具有很高的主观性,不同人对“正确”或“高质量”响应的看法可能不同,这使得评估更加复杂。在这种情况下,多指标的使用可以一定程度上减少某项指标的权重,让评判结果更具有权威性和客观性。同时,还应考虑
5、当前,rag技术作为一种增强生成方法,在人工智能开发和应用领域中得到了广泛认可。目前国内的自动化测试大多依赖于国外的大模型api接口进行测评,对于使用传统机器学习算法和指标的应用太少。
技术实现思路
1、针对上述现有技术中存在的问题,本专利技术的目的是:提出一种分支式拼接的低成本检索增强生成评测方法,将标准评测指标与机器学习算法相结合,降低对计算能力的需求。
2、为了实现上述目的,本专利技术采用的技术方案为:一种基于分支式拼接的低成本检索增强生成评测方法,将训练数据进行“检索问题+输出答案”、“检索结果列表+输出答案”、“检索问题+检索结果列表”的重新分组,用于分别判断语言大模型的答案相关性、答案忠实性和上下文相关性。针对答案相关性,利用词袋模型和tf-idf模型,计算jaccard相似度、余弦相似度等多种指标;针对忠实性,计算mrr、msr等指标;针对上下文相关性,使用了基于textrank的文本处理方法,最终对每一项指标进行综合考量,直到达到预定目标。这种方法不仅提高了评测的全面性和可靠性,也有效降低了评测过程中的主观性和偶然性,使得评测结果更加客观、可信。
3、作为本专利技术的一种优选方式,所述答案相关性的判断为:输入的数据为“问题+答案”,使用词袋模型和tf-idf模型互补地评判输出答案与检索问题之间的相关性,当针对简单的文本表示和处理时,使用词袋模型+余弦相似度来衡量问题和答案之间的相似性;当针对需要考虑词在全局语料库中重要性时,使用tf-idf模型+jaccard相似度来衡量问题和答案之间的相似性。
4、作为本专利技术的一种优选方式,使用词袋模型+余弦相似度来衡量问题和答案之间的相似性的具体方法为:
5、步骤1:将检索问题和输出答案分别进行分词处理,将其分别分解成词语列表,并将分词后的两个词语列表重新组合为两个以空格分隔的字符串;
6、步骤2:将两个词语列表转换为词袋模型的向量表示,即只考虑词在文档中出现的频率,将词语列表表示为词频向量,词袋模型的词频向量可以表示如下:
7、
8、其中,fm,n表示第i个文档中第j个词的出现频率;
9、步骤3:计算检索问题词频向量和输出答案词频向量之间的的余弦相似度,表示检索问题和输出答案的相似程度;余弦相似度的公式如下:
10、
11、其中,a和b是两个向量,a·b是向量的点积,|a|和|b|是向量的范数。
12、作为本专利技术的一种优选方式,使用tf-idf模型+jaccard相似度来衡量问题和答案之间的相似性的具体方法为:
13、步骤1:构建语料库:包含要处理的所有句子,数据的收集需要包括:检索问题和输出答案;
14、步骤2:计算tf-idf矩阵:tf-idf模型包括词频tf和逆文档频率idf;
15、词频tf:表示一个词在一个文档中出现的次数:
16、
17、其中,ft,d是词t在文档d中出现的次数,nd是文档d中所有词的总次数;
18、逆文档频率idf:衡量词在整个语料库中的重要性:
19、
20、其中,n是文档集d中的文档总数,|d∈d:t∈d|是包含词t的文档数量;
21、因此,tf-idf值通过将tf和idf相乘得到:
22、tf-idf(t,d,d)=tf(t,d)×idf(t,d)
23、获取特征词列表,对每个句子计算每个词的tf-idf值,并选择tf-idf矩阵中tf-idf值最高的前n个词作为关键词;n≥k%*nd,表述选取句子的前k%个词作为关键词。
24、步骤3:关键词匹配:使用jaccard相似度来衡量检索问题和输出答案关键词的匹配程度,jaccard相似度公式如下:
25、
26、其中,a和b分别是检索问题和输出答案的关键词集合,|a∩b|是两个集合的交集的大小,|a∪b|是两个集合的并集的大小。
27、作为本专利技术的一种优选方式,所述答案忠实性的判断中,输入的数据为“检索结果列表+输出答案”,包括以下步骤:
28、步骤1:将输出答案和检索结果列表拆分为词,根据数据集特点使用分词工具进行分词;
29、步骤2:对于检索结果列表中的每个检索结果,检查输出答案中的每个词是否出现于检索结果中,选择检索结果列表中与输出答案词汇重合度最高的检索结果,计算其在检索结果列表中的排名;
30、步骤3:根据mrr指标和map指标计算答案忠实性评价指标;mrr指标和map指标能够反映出检索系统中输出答案是否能够从检索结果列表中准确推断出来,从而评估大模型在使用这些段落时的忠实性和准确性。
31、作为本专利技术的一种优选方式,所述mrr是一种用于衡量检索系统检索结果的排序质量的指标,对于单次检索i,选择检索结果列表中与输出答案词汇重合度最高的检索结果,记录该检索结果为相关检索结果,计算其在检索结果列表中的排名的倒数然后计算全部n个检索中相关检索结果的倒数排名的平均值,即mrr,公式如下:
32、
33、其中,n是查询数量,ranki是第i个查询中答案在结果列表中的排名。
34、作为本专利技术的一种优本文档来自技高网...
【技术保护点】
1.一种基于分支式拼接的低成本检索增强生成评测方法,将标准评测指标与机器学习算法相结合,降低对计算能力的需求,其特征在于:将训练数据进行“检索问题+输出答案”、“检索问题+检索结果列表”、“检索结果列表+输出答案”的重新分组,用于分别判断语言大模型的答案相关性、答案忠实性和上下文相关性。
2.根据权利要求1所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于,所述答案相关性的判断为:输入的数据为“检索问题+输出答案”,使用词袋模型和TF-IDF模型互补地评判答案与问题之间的相关性,当针对简单的文本表示和处理时,使用词袋模型+余弦相似度来衡量问题和答案之间的相似性;当针对需要考虑词在全局语料库中重要性时,使用TF-IDF模型+Jaccard相似度来衡量问题和答案之间的相似性。
3.根据权利要求2所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于,使用词袋模型+余弦相似度来衡量问题和答案之间的相似性的具体方法为:
4.根据权利要求2所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于,使用TF-IDF模型+Ja
5.根据权利要求1所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于,所述答案忠实性的判断中,输入的数据为“检索结果列表+输出答案”,包括以下步骤:
6.根据权利要求5所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于:
7.根据权利要求5所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于:
8.根据权利要求1所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于,所述上下文相关性的判断中,输入的数据为“检索问题+检索结果列表”,包括以下步骤:
9.根据权利要求8所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于,所述步骤2具体包括:
10.一种使用权利要求1-9任一所述的一种基于分支式拼接的低成本检索增强生成评测方法的评测系统,其特征在于,包括三个分支模块,对每个分支模块的输入数据进行组合和拼接,即:答案相关性模块,拼接的数据为输出答案和检索问题,用于判断输出答案与检索问题之间的相关性;答案忠实性模块,拼接的数据输出答案和检索结果列表,用于判断输出答案忠于检索结果的能力;上下文相关性模块,拼接的数据为检索问题和检索结果列表,用于判断检索结果的质量。
...【技术特征摘要】
1.一种基于分支式拼接的低成本检索增强生成评测方法,将标准评测指标与机器学习算法相结合,降低对计算能力的需求,其特征在于:将训练数据进行“检索问题+输出答案”、“检索问题+检索结果列表”、“检索结果列表+输出答案”的重新分组,用于分别判断语言大模型的答案相关性、答案忠实性和上下文相关性。
2.根据权利要求1所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于,所述答案相关性的判断为:输入的数据为“检索问题+输出答案”,使用词袋模型和tf-idf模型互补地评判答案与问题之间的相关性,当针对简单的文本表示和处理时,使用词袋模型+余弦相似度来衡量问题和答案之间的相似性;当针对需要考虑词在全局语料库中重要性时,使用tf-idf模型+jaccard相似度来衡量问题和答案之间的相似性。
3.根据权利要求2所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于,使用词袋模型+余弦相似度来衡量问题和答案之间的相似性的具体方法为:
4.根据权利要求2所述的一种基于分支式拼接的低成本检索增强生成评测方法,其特征在于,使用tf-idf模型+jaccard相似度来衡量问题和答案之间的相似性的具体方法为:
5.根据权利...
【专利技术属性】
技术研发人员:陶玥,何一名,张丹,张学强,董晓飞,
申请(专利权)人:南京新一代人工智能研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。