机器阅读理解的问答方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29156685 阅读:25 留言:0更新日期:2021-07-06 22:56
本发明专利技术公开了一种机器阅读理解的问答方法、装置、计算机设备及存储介质,所述方法包括获取用户提问的问句,对问句分类后分别进行预处理;获取经预处理的问句中的实体类型、意图类型及关键词表;根据实体类型和关键词表检索文档库得到答案文档集;将所述答案文档集中的文档进行切段和冗余过滤得到答案段落集;通过计算问句与答案段落集中每个段落的相关度分数得到优选段落集;根据优选段落集中的每个段落和问句以及问句的意图类型得到问句答案集;对所述问句答案集中的问句答案进行排序得到最优答案。本发明专利技术的技术方案实现了跨文档、跨段落阅读理解获取答案,机器阅读理解模型构建简单,表达能力强,成本低,同时提高了获取问句答案的准确率。

【技术实现步骤摘要】
机器阅读理解的问答方法、装置、计算机设备及存储介质
本专利技术涉及人机问答
,尤其涉及一种机器阅读理解的问答方法、装置、计算机设备及存储介质。
技术介绍
机器阅读理解是一种利用算法使计算机理解文章语义并回答相关问题的技术。机器阅读理解的输入为文章和问题文本,输出为问题答案,当前,绝大多数机器阅读理解的问答系统基于深度学习的卷积神经网络和循环神经网络来实现,深度学习的特点是模型能根据训练集上预测的准确度直接优化参数,不断提高模型性能,一般用于解决事实类问题和定义类问题的回答,对于复杂问题的回答,通常需要构建知识图谱来解决。现有的基于卷积神经网络和循环神经网络的机器阅读理解问答系统,具体实现时需要添加各种注意力机制,由此导致了模型的构建复杂,表达能力差的问题。另一方面,现有的机器阅读理解问答系统对于复杂的问题的回答,通常采用构建知识图谱的处理方式,然而构建知识图谱的实现复杂,成本极高。
技术实现思路
基于此,有必要针对上述技术问题,提供一种机器阅读理解的问答方法、装置、计算机设备及存储介质,以解决现有的基于卷积神经网络和循环神经网络的机器阅读理解问答系统,模型构建复杂,表达能力差的问题以及对于复杂问题处理需要构建知识图谱所导致的实现复杂,构建成本高的问题。第一方面,本专利技术实施例提供一种机器阅读理解的问答方法,包括:获取用户问题中的问句,对所述问句进行分类,根据问句类型分别对所述问句进行预处理。获取经过预处理的所述问句中的实体类型、意图类型及关键词表。根据所述实体类型和所述关键词表检索文档库,得到答案文档集。将所述答案文档集中的文档进行切段和冗余过滤,得到答案段落集。使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数,选取相关度分数最高的若干个段落组成优选段落集。将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型,得到所述优选段落集中的每个段落对应的问句答案,将全部所述问句答案组成问句答案集。根据统计特征对所述问句答案集中的问句答案进行排序,得到最优答案;所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种。第二方面,本专利技术实施例提供一种机器阅读理解的问答装置,包括:问句预处理模块,用于获取用户问题中的问句,对所述问句进行分类,根据问句类型分别对所述问句进行预处理。问句特征提取模块,用于获取经过预处理的所述问句中的实体类型、意图类型及关键词表。文档检索模块,用于根据所述实体类型和所述关键词表检索文档库,得到答案文档集。文档切段处理模块,用于将所述答案文档集中的文档进行切段和冗余过滤,得到答案段落集。段落相关度计算模块,用于使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数,选取相关度分数最高的若干个段落组成优选段落集。问句答案提取模块,用于将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型,得到所述优选段落集中的每个段落对应的问句答案,将全部所述问句答案组成问句答案集。问句答案排序模块,用于根据统计特征对所述问句答案集中的问句答案进行排序,得到最优答案;所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种。第三方面,本专利技术实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述机器阅读理解的问答方法的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述机器阅读理解的问答方法的步骤。本专利技术提供的机器阅读理解的问答方法、装置、计算机设备及存储介质通过获取用户问题中的问句,对所述问句进行分类,根据问句类型分别对所述问句进行预处理;获取经过预处理的所述问句中的实体类型、意图类型及关键词表;根据所述实体类型和所述关键词表检索文档库,得到答案文档集;将所述答案文档集中的文档进行切段和冗余过滤,得到答案段落集;使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数,选取相关度分数最高的若干个段落组成优选段落集;将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型,得到所述优选段落集中的每个段落对应的问句答案,将全部所述问句答案组成问句答案集;根据统计特征对所述问句答案集中的问句答案进行排序,得到最优答案;所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种;解决了现有的基于卷积神经网络和循环神经网络的机器阅读理解问答系统,模型构建复杂,表达能力差的问题以及对于复杂问题处理需要构建知识图谱所导致的实现复杂,构建成本高的问题;本专利技术的技术方案实现了跨文档、跨段落阅读理解获取答案,机器阅读理解模型构建简单,表达能力强,成本低,同时又提高了获取问句答案的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中机器阅读理解的问答方法的一应用环境示意图;图2是本专利技术一实施例中机器阅读理解的问答方法的一实现流程图;图3是本专利技术一实施例中机器阅读理解的问答方法的步骤S1的流程图;图4是本专利技术一实施例中机器阅读理解的问答方法的步骤S2的流程图;图5是本专利技术一实施例中机器阅读理解的问答方法的步骤S3的流程图;图6是本专利技术一实施例中机器阅读理解的问答方法的步骤S4的流程图;图7是本专利技术一实施例中机器阅读理解的问答装置的原理框图;图8是本专利技术一实施例中机器阅读理解的问答装置的问句预处理模块原理框图;图9是本专利技术一实施例中机器阅读理解的问答装置的问句特征提取模块原理框图;图10是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例提供的机器阅读理解的问答方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图2所示,提供一种机器本文档来自技高网...

【技术保护点】
1.一种机器阅读理解的问答方法,其特征在于,包括:/n获取用户问题中的问句,对所述问句进行分类,根据问句类型分别对所述问句进行预处理;/n获取经过预处理的所述问句中的实体类型、意图类型及关键词表;/n根据所述实体类型和所述关键词表检索文档库,得到答案文档集;/n将所述答案文档集中的文档进行切段和冗余过滤,得到答案段落集;/n使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数,选取相关度分数最高的若干个段落组成优选段落集;/n将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型,得到所述优选段落集中的每个段落对应的问句答案,将全部所述问句答案组成问句答案集;/n根据统计特征对所述问句答案集中的问句答案进行排序,得到最优答案;所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种。/n

【技术特征摘要】
1.一种机器阅读理解的问答方法,其特征在于,包括:
获取用户问题中的问句,对所述问句进行分类,根据问句类型分别对所述问句进行预处理;
获取经过预处理的所述问句中的实体类型、意图类型及关键词表;
根据所述实体类型和所述关键词表检索文档库,得到答案文档集;
将所述答案文档集中的文档进行切段和冗余过滤,得到答案段落集;
使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数,选取相关度分数最高的若干个段落组成优选段落集;
将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型,得到所述优选段落集中的每个段落对应的问句答案,将全部所述问句答案组成问句答案集;
根据统计特征对所述问句答案集中的问句答案进行排序,得到最优答案;所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种。


2.如权利要求1所述的机器阅读理解的问答方法,其特征在于,所述获取用户问题中的问句,对所述问句进行分类,根据问句类型分别对所述问句进行预处理,包括:
使用基于BERT的文本分类模型对所述问句进行分类;所述问句类型包括简单问句和复杂问句,所述复杂问句包括时间约束句、最值句、是否句及并列句;
对分类后的所述复杂问句分别进行处理,得到所述复杂问句中的特征信息;对于所述时间约束句,使用基于BERT的序列标注模型提取出句中的时间约束;对于所述最值句,根据句中最值词将所述最值句分为不同的最值类型;所述最值类型包括上限最值和下限最值;对于所述是否句,使用基于BERT的序列标注模型提取出句中待判定答案;对于所述并列句,拆分为若干个独立子句;
将分类后的所述复杂问句分别转化为对应的简单问句;对于所述时间约束句,删除句中的时间约束,得到对应的简单问句;对于所述最值句,删除句中的最值词,得到对应的简单问句;对于所述是否句,删除句中的待判定答案,得到对应的简单问句;对于所述并列句,补充所述独立子句缺失的主体,得到若干个对应的简单问句。


3.如权利要求2所述的机器阅读理解的问答方法,其特征在于,简单问句包括所述问句类型为简单问句的问句以及所述问句类型为复杂问句的问句转化得到的对应的简单问句;
所述获取经过预处理的所述问句中的实体类型、意图类型及关键词表,包括:
使用NER算法识别所述简单问句,得到所述简单问句中的实体类型;
使用意图识别模型识别所述简单问句,得到所述简单问句的意图类型;
使用分词工具对所述简单问句进行分词和去停用词,得到第一关键词表;
使用LDA主题模型提取所述简单问句中的关键词,得到第二关键词表;
合并所述第一关键词表和第二关键词表,得到所述简单问句的关键词表。


4.如权利要求2所述的机器阅读理解的问答方法,其特征在于,所述根据所述实体类型和所述关键词表检索文档库,得到答案文档集,包括:
根据所述简单问句的实体类型,筛选所述文档库,得到第一文档集;
根据所述简单问句的关键词表,检索所述文档库的倒排表,得到第二文档集;
对所述第一文档集和所述第二文档集取交集,得到答案文档集。


5.如权利要求4所述的机器阅读理解的问答方法,其特征在于,所述根据所述简单问句的关键词表,检索所述文档库的倒排表,得到第二文档集,还包括:
对于所述时间约束句对应的简单问句,根据所述时间约束...

【专利技术属性】
技术研发人员:程华东舒畅陈又新李剑锋
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1