当前位置: 首页 > 专利查询>燕山大学专利>正文

一种使用两阶段检索的文本多跳推理问答方法技术

技术编号:38134611 阅读:29 留言:0更新日期:2023-07-08 09:45
本发明专利技术公开了一种使用两阶段检索的文本多跳推理问答方法,及自然语言处理技术领域,方法包括两个模块。首先,在上下文感知知识检索器模块中,使用具有掩码机制的双编码器框架进行预训练,再将学习到的假设和知识的表示基于句子级密集检索获得候选核心知识。其次,在实体感知知识验证模块中,通过实体级稀疏矩阵确定假设和知识的可达性,将用于进一步验证核心知识和假设之间是否存在支撑关系。本方法将上下文感知和实体感知的知识检索方法结合应用到推理过程中,改进以实体为中心的推理的盲目性,使模型同时考虑假设和知识之间的上下文语义匹配和实体概念影响。在需要复杂多跳的科学问答领域中,具有明显的性能优势。具有明显的性能优势。具有明显的性能优势。

【技术实现步骤摘要】
一种使用两阶段检索的文本多跳推理问答方法


[0001]本专利技术涉及自然语言处理
,特别涉及一种使用两阶段检索的文本多跳推理问答方法。

技术介绍

[0002]多跳推理问答是一项利用知识库中两个或以上证据进行特定推理,以得出答案的问题形式。在当前的研究中,无论是基于图结构化的推理,还是利用实体概念来识别推理路径的方法,亦或是基于文本知识库的推理,都需要显著关注实体信息才能较为准确地得出下一步检索的内容。然而,在这些方法中,句子的上下文语义被不可避免地忽略,使多跳推理过程的不可靠性增加。因此,对实体的特殊关注在一定程度上限制了模型的性能,导致模型引入虚假证据。而在迭代检索的模型中,更会带来连续累积的错误,致使模型性能灾难性地下降。针对这一问题,本专利技术提出了一种使用两阶段检索的文本多跳推理问答方法,分阶段考虑了句子上下文语义和实体概念的影响,解决了复杂推理场景下的问答任务。

技术实现思路

[0003]本专利技术针对现有方法过分关注实体作用而使推理问答过程盲目化的问题,提出了一种使用两阶段检索的文本多跳推理问答方法。本专利技术本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种使用两阶段检索的文本多跳推理问答方法,其特征在于,包括以下步骤:S1、将问题q和每个答案选项a={a1,a2,...,a
M
}进行拼接,得到假设集合h={h1,h2,...,h
M
},其中,M是问题的选项数,将原形式下使用标志位将问题q和答案选项a进行简单拼接的多项选择问答问题转换为文本蕴含问题;S2、将外部文本知识库中的领域理论知识划分为核心知识集合E和背景知识集合G,其中,核心知识e(e∈E)表示问题考察的核心思想,背景知识g(g∈G)表示用于解决问题的辅助知识;S3、在第一阶段上下文感知知识检索器模块中,将正确答案对应的假设h
i
称为正确假设并将支撑正确假设成立的核心知识e称为正确核心知识分别将掩盖部分实体概念的所有正确假设和其对应的正确核心知识输入到上下文感知知识检索器模块中的双编码器模型中;结合对比学习的思想,将同批训练中的其他问题的正确假设双编码器模型中;结合对比学习的思想,将同批训练中的其他问题的正确假设双编码器模型中;结合对比学习的思想,将同批训练中的其他问题的正确假设作为负相关知识训练后得到正确假设与正确核心知识之间的映射关系;S4、将所有核心知识w输入到双编码模型中的知识编码器中,输出核心知识w的语义表征向量;再将假设h
i
输入到双编码器模型中的问题假设编码器中,得到假设h
i
的语义表征向量,通过与所有核心知识e的表征向量进行余弦相似度检索,得到支撑假设h
i
的候选核心知识池和问题q对应的候选核心知识池同时得到候选核心知识池中核心知识与假设h
i
之间的上下文语义匹配得分;S5、在第二阶段实体感知知识验证模块中,构建背景知识集合G中实体之间的可达性矩阵,通过Kuhn-Munkres算法对假设h
i
中的实体和候选知识池中核心知识的实体之间进行可达性计算,得到核心知识e
j
和假设h
i
之间的实体匹配得分;S6、将上下文感知知识检索器模块和实体感知知识验证模块得到的分数进行加权求和;对于含M个选项的问题q中的第i个假设h
i
,将得分最高的候选核心知识作为假设h
i
的预测核心知识,将得分(置信度)最高的假设预测为问题的最终答案,并对双编码器模型进行微调,通过优化器最小化损失值。2.根据权利要求1所述的一种使用两阶段检索的文本多跳推理问答方法,其特征在于,所述步骤S1中将多项选择问答问题转换为文本蕴含问题包括:将核心知识视为前提、问题和答案选项的拼接视为假设;对于疑问句式问题,采用词法、语法和依存句法分析方法,形成语义通顺、语法正确的问题假设;对于填空式问题,识别填空位并用答案选项进行填充。3.根据权利要求1所述的一种使用两阶段检索的文本多跳推理问答方法,其特征在于:所述步骤S2中,所述核心知识为理论性强、表述抽象的文本;所述背景知识包括实体属性、实体用途和实体同义词在内的简短描述文本。4.根据权利要求1所述的一种使用两阶段检索的文本多跳推理问答方法,其特征在于:所述步骤S3包含以下步骤:S3.1、使用SpaCy文本处理工具,抽取出背...

【专利技术属性】
技术研发人员:冯建周王琴徐甘霖
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1