基于检索增强的金融问答文本生成方法、设备及存储介质技术

技术编号：38656608 阅读：7 留言：0更新日期：2023-09-02 22:42

本发明专利技术涉及一种基于检索增强的金融问答文本生成方法、设备及存储介质，包括：设计了一个应用于金融领域的垂直域检索增强范式，通过双塔模型对问题和检索文档进行编码，并利用余弦相似度抽取语料库中与问题关键词相似度较高的文档进行召回，通过将问题与检索的金融文档进行拼得到的文本输入到生成模型并将输出概率进行加权的文本生成集成策略，利用匹配的金融检索文档的概率与语言模型输出序列的模糊度来训练金融文档检索器的优化方法。本发明专利技术提出了金融领域检索增强语言模型的新范式。在这个范式下，利用生成模型产生监督信号，从而去优化金融文档检索组件以适配生成模型，从而消除或减少幻觉即事实性错误的生成。消除或减少幻觉即事实性错误的生成。消除或减少幻觉即事实性错误的生成。

全部详细技术资料下载

【技术实现步骤摘要】
基于检索增强的金融问答文本生成方法、设备及存储介质

[0001]本专利技术涉及问答
，尤其是涉及一种基于检索增强的金融问答系统文本生成方法。

技术介绍

[0002]问答系统由搜索引擎发展而来，能够为用户返回更加精确的和更加符合用户需求的答案。对话系统可以分为两类，即基于检索的模型和基于生成的模型。基于检索的模型在接收响应请求时直接从对话语料库(即检索池)中复制现有的响应。检索到的回答通常是信息丰富和合乎语法的，因为它们是从真实世界的对话中收集的，也可能是由人类编辑的。因此，当给定的对话历史与检索池中的对话历史有本质差异时，这样的系统表现很差。另一方面，基于生成的模型从零开始生成一个新的话语。这些基于生成的模型在处理不可见的对话上下文时具有更好的泛化能力。
[0003]目前，应用于金融领域的问答系统较多为基于知识图谱的知识检索模型。中国专利申请CN112100344A给出了一种基于知识图谱的金融领域知识问答方法。中国专利申请CN110083692B给出了一种金融知识问答的文本交互匹配方法及装置，中国专利申请CN111522906B提出了一种基于问答模式的金融事件主体抽取方法。
[0004]基于知识图谱的问答系统通过对用户的问句进行语义解析，识别问句的中心实体，理解用户的意图，将问句的实体链接到知识图谱中的实体，最后构造查询语句从知识图谱中查询到答案返回给用户。但是在对话切换话题的场景中，仅通过中心实体来构造外部知识图谱的方式，无法有效对问题进行扩充，特别是在垂直领域中，以中心实体构造的外部知识容易...

【技术保护点】

【技术特征摘要】
1.一种基于检索增强的金融问答文本生成方法，其特征在于，方法步骤包括：使用检索器，采用双编码器模型分别对开放域以及金融域的问题和检索文档进行编码，并召回问题相关文档；使用检索结果集成器，采用交叉编码器模型对开放域与金融域召回的问题相关文档进行重排并精选检索结果，对精选检索结果与原始上下文采用加权集成策略进行拼接；使用生成器，以加权集成生成的文档为输入，根据问题和检索到的辅助知识生成问答结果；其中，所述问题检索器采用基于模糊度监督优化方法调整检索文档的概率。2.根据权利要求1所述的一种基于检索增强的金融问答文本生成方法，其特征在于，所述检索器采用密集通道检索的优化训练方法，基于双编码器模型分别实现对开放域和金融域检索源的检索，具体步骤如下：基于双编码器及其训练策略，对两个编码器E q(
·
)和E p(
·
)采用预先训练的大模型初始化的两个独立神经网络，并将第一个标记处的表示作为编码的输出；基于双编码器及其训练策略，对两个编码器E
q
(
·
)和E
p
(
·
)采用预先训练的大模型初始化的两个独立神经网络，并将第一个标记处的表示作为编码的输出；密集通道双编码器使用编码器E
p
(
·
)来获取通道的嵌入；建立通道嵌入索引进行检索，在查询时使用另一个编码器E
q
(
·
)将输入问题嵌入到一个d维实值向量中，检索出嵌入位置与问题最近的k个段落文档；计算问题q和候选段落p之间的相似性，利用相似度抽取语料库中与问题相似度较高的文档进行召回。3.根据权利要求2所述的一种基于检索增强的金融问答文本生成方法，其特征在于，所述检索器的训练目标是学习问题和文章的密集表示，使训练数据中问题积极的文章对比问题消极的文章对具有更高的相似度：双编码器给定一个问题q
i
及其文章正样本和m个负样本通过训练将损失函数最小化：其中，m训练采用的负样本数量，sim(q,p)表示问题q和候选段落p之间的相似性。4.根据权利要求2所述的一种基于检索增强的金融问答文本生成方法，其特征在于，所述开放域的检索为根据问题从检索库与外部搜索引擎检索源获得相关文档。5.根据权利要求2所述的一种基于检索增强的金融问答文本生成方法，其特征在于，所述金融域的检索为从金融领域知识库和搜索引擎库检索源对排名靠前的热门检索词进行检索获得相关文档。...

【专利技术属性】
技术研发人员：张伟娜，李欢峰，段钰堂，孙苏苏，申昊民，
申请(专利权)人：上海电力大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人