多文本融合方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:41793925 阅读:27 留言:0更新日期:2024-06-24 20:19
本发明专利技术提供了一种多文本融合方法、装置、电子设备和计算机可读存储介质,涉及数据处理技术领域。其中,该方法包括:获取向量化问题;基于问题确定第一数据和第二数据,其中,第一数据为检索文本,第二数据为生成文本;将第一数据和第二数据进行结合生成至少一个结合文本;基于文本生成模型反推生成问题的概率;确定至少一个概率中的至少一个最优值,将最优值对应的结合文本作为目标文本;目标文本对应的检索文本和目标文本对应的生成文本融合,得到融合文本;通过采用无监督的零样本重排方法匹配大模型生成的知识及基于问题检索的知识,该方法与特定的领域和任务无关,具备较强的泛化能力,能够大大提升模型的召回效果及模型的稳健能力。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其是涉及一种多文本融合方法、装置、电子设备和计算机可读存储介质


技术介绍

1、随着互联网的快速发展,网络上形成了海量的文本知识库,这为人们学习和获取知识提供了极大的便利。但是,如何从繁杂的网络文本中快速准确地获取所需知识,仍然是一个待解决的难题。

2、现有技术中可以利用语言大模型(llm,large language model)实现知识库精准输出,首先计算问题与检索知识的证据相关性,再计算检索知识与生成知识的相容性,然后基于这两步的计算结果做两种知识的结合。该方法的不足之处在于需要的训练数据较难收集,还需要针对不同的场景进行针对性的训练,泛化能力较差,模型不稳定。


技术实现思路

1、本专利技术的目的在于提供一种多文本融合方法、装置、电子设备和计算机可读存储介质,通过采用无监督的零样本重排方法匹配大模型生成的知识及基于问题检索的知识,该方法与特定的领域和任务无关,具备较强的泛化能力,能够大大提升模型的召回效果及模型的稳健能力。

2、第一方面,本专利技术提供了本文档来自技高网...

【技术保护点】

1.一种多文本融合方法,其特征在于,包括:

2.根据权利要求1所述的多文本融合方法,其特征在于,所述知识数据库包括通用知识和行业知识;通过下述步骤确定所述知识数据库:

3.根据权利要求2所述的多文本融合方法,其特征在于,在预先设置的知识数据库中基于相似度计算确定至少一个与所述向量化问题匹配的检索文本,将与所述向量化问题匹配的所述检索文本作为第一数据的步骤包括:

4.根据权利要求1所述的多文本融合方法,其特征在于,在将所述问题输入大语言模型中输出至少一个生成文本,将所述生成文本确定为第二数据的步骤之前,所述方法还包括:

5.根据权利要求3所述...

【技术特征摘要】

1.一种多文本融合方法,其特征在于,包括:

2.根据权利要求1所述的多文本融合方法,其特征在于,所述知识数据库包括通用知识和行业知识;通过下述步骤确定所述知识数据库:

3.根据权利要求2所述的多文本融合方法,其特征在于,在预先设置的知识数据库中基于相似度计算确定至少一个与所述向量化问题匹配的检索文本,将与所述向量化问题匹配的所述检索文本作为第一数据的步骤包括:

4.根据权利要求1所述的多文本融合方法,其特征在于,在将所述问题输入大语言模型中输出至少一个生成文本,将所述生成文本确定为第二数据的步骤之前,所述方法还包括:

5.根据权利要求3所述的多文本融合方法,其特征在于,将所述问题输入大语言模型中输出至少一个生成文本,将所述生成文本确定为第二数据的...

【专利技术属性】
技术研发人员:韩权杰杜新凯吕超孙雅琳
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1