一种层次化会话式机器阅读理解系统和方法技术方案

技术编号:28978709 阅读:22 留言:0更新日期:2021-06-23 09:24
本发明专利技术公开了一种层次化会话式机器阅读理解系统和方法。该系统包括:信息编码层,用于通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;层次化转换推理层,用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;答案预测层,用于对当前问题进行类型分类和答案跨度提取。本发明专利技术利用多种通道从多个角度搜索回答问题所需要的文章信息,能够生成更高质量的答案。

【技术实现步骤摘要】
一种层次化会话式机器阅读理解系统和方法
本专利技术涉及计算机
,更具体地,涉及一种层次化会话式机器阅读理解系统和方法。
技术介绍
随着互联网技术的迅猛发展,机器与人类的交互已经从最初简单的指令级命令交互过渡到目前的非结构化文本交互,人们希望机器能够适应更加复杂多变的语言环境,从而更好更快的完成所给予的任务。各类智能教育和智能客服系统迅猛发展,作为上述服务核心的机器阅读理解任务已成为自然语言处理的研究热点。会话式阅读理解通过文字或语音与用户进行多轮交流,根据用户提供的信息在产品文档中快速找到解决方案,具有广阔的应用前景。随着信息时代的到来,文本的规模呈爆炸式发展。因此,机器阅读理解带来的自动化和智能化恰逢其时,在工业界的众多领域和人们生活中的方方面面都有着广阔的应用空间。日常生活中充满着机器阅读理解技术的影子,例如,客服机器人是一种基于自然语言处理的拟人式服务,通过文字或语音与用户进行多轮交流,获取相关信息并提供解答。智能法律用于自动处理和应用各种错综复杂的法律法规实现对案例的自动审判,这可以利用机器阅读理解处理和分析大规模文档方面的速度优势。智能教育能够利用计算机辅助人类的学习过程。机器阅读理解在该领域的典型应用是作文自动批阅。自动作文批阅模型可以作为学生写作时的助手,理解作文语义,自动修改语法错误,个性化总结易错知识点。机器阅读理解任务在自然语言处理中占据着非常重要的位置。它通过给予机器一段非结构化文本及其相应的问题,要求机器能够根据文本回答该问题,而这些问题往往充斥着迷惑性,如果不理解文本内容而根据规则进行回答,由此得到的答案大概率是错误答案。因此,机器阅读理解是检测机器理解文本语义能力的一个重要任务。传统的机器阅读理解任务中不同轮的问题和答案之间没有相关性,可以独立求解。由于问题之间都是相互独立的,因此模型难以获得系统的知识。大部分机器阅读理解任务属于该类型。然而,在现实生活中,人类获取答案经常发生在对话行为中。人类会基于已经学习到的信息,然后通过不断的询问来获取更多额外的信息,这是机器智能化的体现。对话式机器阅读理解任务被提出,它要求机器能够模拟人类捕获信息的方式来回答问题。对话式机器阅读理解任务被证实比普通机器阅读理解任务更具有挑战性,因为它的一系列问题只有在理解了对话历史以及文章内容后才能被回答。这类任务中,邻近轮的问题和答案之间存在相关性,即回答第N+1轮的问题有可能需要依据第N轮及之前的问题和答案。这种形式的阅读理解任务更符合人与人之间对话的过程。当给定一篇文章时,对文章进行多轮问答对话,在得到答案的基础上提出另一个相关的问题,多次迭代。在现有的对话式机器阅读理解方案中,最经典的是FlowQA模型。该模型在以往传统机器阅读理解模型对文章进行双向循环神经网络提取特征的基础上,加入了问题方向的单向循环神经网络,将历史问题的推理信息以隐向量的形式传入当前问题中并参与推理过程。使用单向循环神经网络是因为对于当前问题而言,它拥有的信息只来自“历史”,无法获得来自“未来”的信息。这一简单的处理提升了原本模型在此任务中的效果,也证明了流机制在多轮机器阅读理解任务中的重要性。可以看出,关于流机制在多轮机器阅读理解任务中的研究尚处于萌芽阶段,但其在此任务中增强模型逻辑推理的能力却十分强悍。如何进一步运用流机制来完善机器的逻辑推理能力,使其拥有真正的自然语言理解能力,是未来一个重要的研究方向。据分析,传统的基于规则的机器阅读理解任务中,主要是依赖专家系统所建立的复杂规则,而且数据集比较简单,限制了系统扩展到其他领域的能力。由于过分依赖现有的语言特征工具,很难模拟人类阅读,难以构建有效特征,而且标记数据太少,机器学习方法虽然比规则方法好,但是并不能检测机器理解文本语义的能力。而对于深度学习时代,命名实体识别,指代消解等技术的专利技术,再加上深度学习端到端算法的提出(不依赖语言特征工具),一定程度上避免了噪声误差,因此极大的推动了机器阅读理解任务的发展过程。然而,在现实生活中,人类的交流更多是基于对话式的。人类获取答案经常发生在对话行为中,为了探索机器在历史对话中提取有效信息并结合文章内容进行逻辑推理的能力,一种全新的机器阅读理解任务,即会话式机器阅读理解任务被提出。它要求机器能够模拟人类捕获信息的方式来回答问题。目前会话式机器阅读理解的模型主要是在传统机器阅读理解模型的基础上添加历史问题信息来进行。但是这些方法主要存在以下两个缺点:1)、当前大部分模型忽略了历史问题之间的推理过程,直接以拼接词向量的形式来增强当前问题的信息;2)、当前大部分模型仅考虑了短期语义和时间依赖性,仅在“token”级别上考虑了推理过程中的信息流转换,忽略了文章全局信息对历史问题的推理过程,使得模型只关注文章的局部内容,造成信息损失。
技术实现思路
本专利技术的目的是克服上述现有技术的缺陷,提供一种层次化会话式机器阅读理解系统和方法,实现在会话式机器阅读理解任务中,提高机器阅读理解系统对文本以及历史问答信息的有效利用,充分挖掘深层次语义信息,进而完成对当前问题的准确回答。根据本专利技术的第一方面,提供一种层次化会话式机器阅读理解系统。该系统包括:信息编码层:用于通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;层次化转换推理层:用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;答案预测层:用于对当前问题进行类型分类和答案跨度提取。根据本专利技术的第二方面,提供一种层次化会话式机器阅读理解方法。该方法包括以下步骤:通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;对当前问题进行类型分类和答案跨度提取。与现有技术相比,本专利技术的优点在于,设计了一种创新的基于深度学习的层次化会话式机器阅读理解模型(或称系统),该模型将过往问题的推理信息以信息流的方式传递到当前问题的推理过程中,完善回答当前问题所需要的信息,同时,利用多种通道从多个角度搜索回答问题所需要的文章信息,使得机器能够生成更高质量的答案。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。图1是根据本专利技术一个实施例的层次化会话式机器阅读理解系统的整体结构图;图2是根据本专利技术一个实施例的多通道信息流传递机制示意图;附图中,Self-Attention-自注意力机制;MFT-多通道信息流传递推理模块;MultilevelAttention-多层次注意力机制;Align本文档来自技高网
...

【技术保护点】
1.一种层次化会话式机器阅读理解系统,包括:/n信息编码层:用于通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;/n层次化转换推理层:用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;/n答案预测层:用于对当前问题进行类型分类和答案跨度提取。/n

【技术特征摘要】
1.一种层次化会话式机器阅读理解系统,包括:
信息编码层:用于通过问题与文章的交互获得每一个问题所对应的文章的词向量,并将所有词向量进行拼接,获得问题与文章的初始化词向量矩阵;
层次化转换推理层:用于对文章和问题的编码抽取深层次的上下文信息,捕获多个会话信息流并执行分层推理,其中会话信息流用于将一个问题与之前的一个问答对进行联系;
答案预测层:用于对当前问题进行类型分类和答案跨度提取。


2.根据权利要求1所述的系统,其特征在于,所述信息编码层获得的问题与文章的初始化词向量矩阵为:






其中,表示第i个问题下的文章初始向量,表示第i轮会话流的初始向量,C表示文章中的单词,g表示Gloe词向量,Co表示CoVE词向量,e表示ELMo词向量,表示文章单词的词性信息,表示通过问题与文章的交互来获得每一个问题所对应的文章的词向量。


3.根据权利要求1所述的系统,其特征在于,所述层次化转换推理层包括问题-文章信息集成模块、多级上下文注意机制力模块、多通道信息流传递推理模块,其中所述问题-文章信息集成模块对问题与文章的初始向量做编码,获得文章和问题的上下文表示;所述多级上下文注意机制力模块,使用多级注意力机制,获得文章对问题在词层级的注意力信息、文章对问题在浅层语义上的注意力信息,以及文章对问题在深层语义上的注意力信息;所述多通道信息流传递推理模块,使用多通道信息流传递机制,收集文章的推理信息和问题的推理信息,并进行结合。


4.根据权利要求3所述的系统,其特征在于,所述问题-文章信息集成模块采用双层的双向长短期记忆网络模型BiLSTM获得隐藏层向量表示。


5.根据权利要求4所述的系统,其特征在于,所述多通道信息流传递推理模块包括分层全局信息传递机制,执行以下步骤...

【专利技术属性】
技术研发人员:刘啸杨敏李成明姜青山
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1