【技术实现步骤摘要】
机器阅读理解的问答方法、装置、计算机设备及存储介质
本专利技术涉及人机问答
,尤其涉及一种机器阅读理解的问答方法、装置、计算机设备及存储介质。
技术介绍
机器阅读理解是一种利用算法使计算机理解文章语义并回答相关问题的技术。机器阅读理解的输入为文章和问题文本,输出为问题答案,当前,绝大多数机器阅读理解的问答系统基于深度学习的卷积神经网络和循环神经网络来实现,深度学习的特点是模型能根据训练集上预测的准确度直接优化参数,不断提高模型性能,一般用于解决事实类问题和定义类问题的回答,对于复杂问题的回答,通常需要构建知识图谱来解决。现有的基于卷积神经网络和循环神经网络的机器阅读理解问答系统,具体实现时需要添加各种注意力机制,由此导致了模型的构建复杂,表达能力差的问题。另一方面,现有的机器阅读理解问答系统对于复杂的问题的回答,通常采用构建知识图谱的处理方式,然而构建知识图谱的实现复杂,成本极高。
技术实现思路
基于此,有必要针对上述技术问题,提供一种机器阅读理解的问答方法、装置、计算机设备及存储介质,以解决现有的基于卷积神经网络和循环神经网络的机器阅读理解问答系统,模型构建复杂,表达能力差的问题以及对于复杂问题处理需要构建知识图谱所导致的实现复杂,构建成本高的问题。第一方面,本专利技术实施例提供一种机器阅读理解的问答方法,包括:获取用户问题中的问句,对所述问句进行分类,根据问句类型分别对所述问句进行预处理。获取经过预处理的所述问句中的实体类型、意图类型及关键词表。根 ...
【技术保护点】
1.一种机器阅读理解的问答方法,其特征在于,包括:/n获取用户问题中的问句,对所述问句进行分类,根据问句类型分别对所述问句进行预处理;/n获取经过预处理的所述问句中的实体类型、意图类型及关键词表;/n根据所述实体类型和所述关键词表检索文档库,得到答案文档集;/n将所述答案文档集中的文档进行切段和冗余过滤,得到答案段落集;/n使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数,选取相关度分数最高的若干个段落组成优选段落集;/n将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型,得到所述优选段落集中的每个段落对应的问句答案,将全部所述问句答案组成问句答案集;/n根据统计特征对所述问句答案集中的问句答案进行排序,得到最优答案;所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种。/n
【技术特征摘要】
1.一种机器阅读理解的问答方法,其特征在于,包括:
获取用户问题中的问句,对所述问句进行分类,根据问句类型分别对所述问句进行预处理;
获取经过预处理的所述问句中的实体类型、意图类型及关键词表;
根据所述实体类型和所述关键词表检索文档库,得到答案文档集;
将所述答案文档集中的文档进行切段和冗余过滤,得到答案段落集;
使用问句段落相关度模型计算所述问句与所述答案段落集中每个段落的相关度分数,选取相关度分数最高的若干个段落组成优选段落集;
将所述优选段落集中的每个段落和所述问句以及所述问句的意图类型输入基于BERT的阅读理解模型,得到所述优选段落集中的每个段落对应的问句答案,将全部所述问句答案组成问句答案集;
根据统计特征对所述问句答案集中的问句答案进行排序,得到最优答案;所述统计特征包括所述问句答案出现的频次、所述问句的意图类型、所述问句答案通顺程度及最值类型中的一种或多种。
2.如权利要求1所述的机器阅读理解的问答方法,其特征在于,所述获取用户问题中的问句,对所述问句进行分类,根据问句类型分别对所述问句进行预处理,包括:
使用基于BERT的文本分类模型对所述问句进行分类;所述问句类型包括简单问句和复杂问句,所述复杂问句包括时间约束句、最值句、是否句及并列句;
对分类后的所述复杂问句分别进行处理,得到所述复杂问句中的特征信息;对于所述时间约束句,使用基于BERT的序列标注模型提取出句中的时间约束;对于所述最值句,根据句中最值词将所述最值句分为不同的最值类型;所述最值类型包括上限最值和下限最值;对于所述是否句,使用基于BERT的序列标注模型提取出句中待判定答案;对于所述并列句,拆分为若干个独立子句;
将分类后的所述复杂问句分别转化为对应的简单问句;对于所述时间约束句,删除句中的时间约束,得到对应的简单问句;对于所述最值句,删除句中的最值词,得到对应的简单问句;对于所述是否句,删除句中的待判定答案,得到对应的简单问句;对于所述并列句,补充所述独立子句缺失的主体,得到若干个对应的简单问句。
3.如权利要求2所述的机器阅读理解的问答方法,其特征在于,简单问句包括所述问句类型为简单问句的问句以及所述问句类型为复杂问句的问句转化得到的对应的简单问句;
所述获取经过预处理的所述问句中的实体类型、意图类型及关键词表,包括:
使用NER算法识别所述简单问句,得到所述简单问句中的实体类型;
使用意图识别模型识别所述简单问句,得到所述简单问句的意图类型;
使用分词工具对所述简单问句进行分词和去停用词,得到第一关键词表;
使用LDA主题模型提取所述简单问句中的关键词,得到第二关键词表;
合并所述第一关键词表和第二关键词表,得到所述简单问句的关键词表。
4.如权利要求2所述的机器阅读理解的问答方法,其特征在于,所述根据所述实体类型和所述关键词表检索文档库,得到答案文档集,包括:
根据所述简单问句的实体类型,筛选所述文档库,得到第一文档集;
根据所述简单问句的关键词表,检索所述文档库的倒排表,得到第二文档集;
对所述第一文档集和所述第二文档集取交集,得到答案文档集。
5.如权利要求4所述的机器阅读理解的问答方法,其特征在于,所述根据所述简单问句的关键词表,检索所述文档库的倒排表,得到第二文档集,还包括:
对于所述时间约束句对应的简单问句,根据所述时间约束...
【专利技术属性】
技术研发人员:程华东,舒畅,陈又新,李剑锋,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。