【技术实现步骤摘要】
本专利技术属于数据处理领域,具体涉及一种提高检索增强生成文本相关性的数据处理方法。
技术介绍
1、检索增强生成(retrieval-augmented generation,rag)是一种结合信息检索和生成模型的技术,旨在提高生成式模型的性能和准确性。检索增强生成技术通过在生成文本之前检索相关信息来增强生成过程,特别适用于需要结合外部知识的任务,如问答系统、对话生成和内容创作。然而,目前检索增强生成在使用的时候任然存在着检索数据相关性差的缺点。例如,检索文本的质量会直接影响生成结果的准确性和相关性。如果检索系统未能找到足够相关或准确的信息,生成模型可能会产生不理想的输出。因此,构建一个高效且准确的检索系统是关键。另外,检索得到的文本内容与问题的相关性也存在冗余,部分检索得到的文本对于具体问题的回答不具备关联,检索到的信息缺乏与问题相关联的有效清洗方法,有的甚至会误导大语言模型生成错误的回答。如何有效地对检索到的信息进行数据层面的精简便显得十分重要。目前,行业内缺乏有效的参考文本数据清洗策略,在不同的问题领域通常采用人工清洗标注的方式,导
本文档来自技高网...【技术保护点】
1.一种提高检索增强生成文本相关性的数据处理方法,其特征在于,包括以下步骤:
2.根据权利要求1中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述关联性评估模型的构建方法包括:
3.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述关联性评估模型的训练方法包括:
4.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述前馈神经网络包含两个线性层。
5.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述交叉注意力网络模型的定义为:
【技术特征摘要】
1.一种提高检索增强生成文本相关性的数据处理方法,其特征在于,包括以下步骤:
2.根据权利要求1中的一种提高检索增强生成文本相关性的数据处理方法,其特征在于,所述关联性评估模型的构建方法包括:
3.根据权利要求2中的一种提高检索增强生成文本相关性的数据处理方法,其特征...
【专利技术属性】
技术研发人员:张艺浩,刘岩鑫,徐修信,张雪泽,
申请(专利权)人:生花智能科技苏州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。