一种提高检索增强生成文本相关性的数据处理方法技术

技术编号:44728181 阅读:31 留言:0更新日期:2025-03-21 17:53
本申请设计了一种提高检索增强生成文本相关性的数据处理方法,包括:将输入问题文本输入向量模型中得到问题文本向量数据;按照输入问题文本进行知识库检索,获取知识库文本;将知识库文本进行句子切分,获得检索参考句子,并将其输入向量模型中,获得句子文本向量数据;构建关联性评估模型并进行训练;将句子文本向量数据、问题文本向量数据输入至关联性评估模型中,进行关联性数值计算,保留关联性数值大于0.5的检索参考句子,清除其余的检索参考句子,筛选出精简知识库文本;将筛选出的精简知识库文本和输入问题文本进行整合,并输入至大语言模型中。本申请能够使用关联评分模型清除不必要的知识库文本信息,有效的提升问题回答的准确率。

【技术实现步骤摘要】

本专利技术属于数据处理领域,具体涉及一种提高检索增强生成文本相关性的数据处理方法


技术介绍

1、检索增强生成(retrieval-augmented generation,rag)是一种结合信息检索和生成模型的技术,旨在提高生成式模型的性能和准确性。检索增强生成技术通过在生成文本之前检索相关信息来增强生成过程,特别适用于需要结合外部知识的任务,如问答系统、对话生成和内容创作。然而,目前检索增强生成在使用的时候任然存在着检索数据相关性差的缺点。例如,检索文本的质量会直接影响生成结果的准确性和相关性。如果检索系统未能找到足够相关或准确的信息,生成模型可能会产生不理想的输出。因此,构建一个高效且准确的检索系统是关键。另外,检索得到的文本内容与问题的相关性也存在冗余,部分检索得到的文本对于具体问题的回答不具备关联,检索到的信息缺乏与问题相关联的有效清洗方法,有的甚至会误导大语言模型生成错误的回答。如何有效地对检索到的信息进行数据层面的精简便显得十分重要。目前,行业内缺乏有效的参考文本数据清洗策略,在不同的问题领域通常采用人工清洗标注的方式,导致效率低下。

本文档来自技高网...

【技术保护点】

1.一种提高检索增强生成文本相关性的数据处理方法,其特征在于,包括以下步骤:

2.根据权利要求1中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述关联性评估模型的构建方法包括:

3.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述关联性评估模型的训练方法包括:

4.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述前馈神经网络包含两个线性层。

5.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述交叉注意力网络模型的定义为:

【技术特征摘要】

1.一种提高检索增强生成文本相关性的数据处理方法,其特征在于,包括以下步骤:

2.根据权利要求1中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述关联性评估模型的构建方法包括:

3.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征...

【专利技术属性】
技术研发人员:张艺浩刘岩鑫徐修信张雪泽
申请(专利权)人:生花智能科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1