【技术实现步骤摘要】
机器阅读理解方法、设备和存储介质
本专利技术涉及机器学习领域,具体而言,涉及一种机器阅读理解方法、设备和存储介质。
技术介绍
机器阅读理解的任务目标在于让机器学会根据文章内容回答人类提出的问题,这类任务可以作为测试计算机能否很好地理解自然语言的基线方法。同时机器阅读理解又有广泛的应用场景,例如搜索引擎、电子商务、教育领域等。图1中示出了将机器阅读理解应用于问答系统场景中的一个示例。如图1所示,用户输入问题(即图1中的用户问题),首先由关键词检索模块(即图1中的检索模块)对文章数据库(即图1中的数据库,该数据库可以预先搭建,数据库中存储大量文章数据)进行搜索,找到与用户问题相关的文章,得到相关文章后由阅读理解模块根据问题对文章内容进行分析、理解、推理,找到与用户问题相对应的答案并反馈给用户。目前,机器阅读理解采用的方法多是基于循环神经网络与注意力机制的方法,通过寻找文章中每个词语与问题中每个词语的对应关系(该对应关系可以称为对齐信息)发现深层特征,基于此特征,找到文章中的原话来回答人类提出的问题。图2示出了现有 ...
【技术保护点】
1.一种机器阅读理解方法,包括:/n获取文章针对问题的第一对齐信息;/n根据获取的所述第一对齐信息,在所述文章中确定所述问题的答案。/n
【技术特征摘要】
1.一种机器阅读理解方法,包括:
获取文章针对问题的第一对齐信息;
根据获取的所述第一对齐信息,在所述文章中确定所述问题的答案。
2.根据权利要求1所述的方法,还包括:
获取所述问题针对所述文章的第二对齐信息;
根据获取的所述第二对齐信息,确定所述文章中是否包含所述问题的答案。
3.根据权利要求2所述的方法,还包括:
若确定所述文章中包含所述问题的答案,则输出根据所述第一对齐信息所确定的所述问题的答案。
4.根据权利要求1至3中任一项所述的方法,其中,获取文章针对问题的第一对齐信息,包括:
获取所述文章对应的向量信息和所述问题对应的向量信息;
根据所述文章对应的向量信息和所述问题对应的向量信息,确定所述文章针对所述问题的第一对齐信息。
5.根据权利要求2或3所述的方法,其中,获取所述问题针对所述文章的第二对齐信息,包括:
获取所述文章对应的向量信息和所述问题对应的向量信息;
根据所述文章对应的向量信息和所述问题对应的向量信息,确定所述问题针对所述文章的第二对齐信息。
6.根据权利要求4或5所述的方法,其中,
获取所述文章对应的向量信息,包括:
获取所述文章对应的第一词向量;
对所述第一词向量进行特征提取以得到第二词向量;
根据所述第二词向量,确定所述文章中各词语间的第三对齐信息;
根据所述第二词向量和所述第三对齐信息,确定所述文章对应的向量信息;
和/或
获取所述问题对应的向量信息,包括:
获取所述问题对应的第三词向量;
对所述第三词向量进行特征提取以得到第四词向量;
根据所述第四词向量,确定所述问题中各词语间的第四对齐信息;
根据所述第四词向量和所述第四对齐信息,确定所述问题对应的向量信息。
7.根据权利要求6所述的方法,其中,
根据所述第二词向量和所述第三对齐信息,确定所述文章对应的向量信息,包括:
将所述第二词向量和所述第三对齐信息进行合并处理;
对合并处理后得到的结果进行特征提取,得到所述文章对应的向量信息;
和/或
根据所述第四词向量和所述第四对齐信息,确定所述问题对应的向量信息,包括:
将所述第四词向量和所述第四对齐信息进行合并处理;
对合并处理后得到的结果进行特征提取,得到所述问题对应的向量信息。
8.根据权利要求6或7所述的方法,其中,
根据所述第二词向量,确定所述文章中各词语间的第三对齐信息,包括:
确定所述文章中各词语间的相似度信息;
根据所述文章中各词语间的相似度信息,对所述第二词向量进行加权处理,得到所述文章中各词语间的第三对齐信息;
和/或
根据所述第四词向量,确定所述问题中各词语间的第四对齐信息,包括:
确定所述问题中各词语间的相似度信息;
根据所述问题中各词语间的相似度信息,对所述第四词向量进行加权处理,得到所述问题中各词语间的第四对齐信息。
9.根据权利要求4所述的方法,其中,根据所述文章对应的向量信息和所述问题对应的向量信息,确定所述文章针对所述问题的第一对齐信息,包括:
根据所述文章对应的向量信息和所述问题对应的向量信息,确定所述文章中各词语和所述问题中各词语间的相似度信息;
根据所述文章中各词语和所述问题中各词语间的相似度信息,对所述问题对应的向量信息进行加权处理,得到所述文章针对所述问题的第一对齐信息。
10.根据权利要求1至9中任一项所述的方法,其中,根据获取的所述第一对齐信息,在所述文章中确定所述问题的答案,包括:
根据获取的所述第一对齐信息,依次经过至少一个推理模块进行处理,并根据最后一个推理模块输出的第一推理信息确定所述文章中针对所述问题的答案信息;
任一推理模块的处理,包括:
步骤1,将该推理模块的输入信息与该推理模块中上一次推理输出的第二推理信息进行拼接,并提取与拼接的结果相对应的特征信息,所述输入信息包括所述第一对齐信息或上一个推理模块输出的第一推理信息;
步骤2,确定所述特征信息针对所述输入信息的第五对齐信息,以及所述特征信息针对该推理模块中上一次推理输出的第二推理信息的第六对齐信息;
步骤3,根据所述第五...
【专利技术属性】
技术研发人员:庄毅萌,刘松,
申请(专利权)人:北京三星通信技术研究有限公司,三星电子株式会社,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。