【技术实现步骤摘要】
通过神经机器阅读理解依赖于话语分析来回答复杂问题
[0001]相关申请的交叉引用
[0002]本申请要求于2020年10月29日提交的名称为“Relying on Discourse Analysis to Answer Complex Questions by Neural Machine Reading Comprehension”的美国临时申请No.63/107,189的权益,该申请的内容出于所有目的并入本文中。
[0003]本公开总体上涉及语言学。更具体地,本公开涉及使用话语分析和神经机器阅读理解来生成或证实问题的答案。
技术介绍
[0004]由于处理器的速度和存储器的容量大大增加,语言学的计算机实施的应用正在增加。例如,基于计算机的语言话语分析促进了众多应用,诸如可以回答从用户装置接收到的问题的自动代理(automated agents)。但是现有技术不能可靠地和准确地回答问题。因此,期望改进的自主代理。
技术实现思路
[0005]公开了涉及使用文本的句法、语义和话语分析来训练MRC ...
【技术保护点】
【技术特征摘要】
1.一种从非结构化文本中识别复杂问题的答案的方法,所述方法包括:接收包括所述复杂问题的用户查询;从非结构化文本的语料库获得答案候选文本,所述答案候选文本对应于所述用户查询并且包括随后从中识别出所述答案的文本;生成对应于所述用户查询的第一语言数据以及对应于所述答案候选文本的第二语言数据,所述第一语言数据包括从所述用户查询生成的第一句法数据、第一语义数据和第一话语数据,所述第二语言数据包括从所述答案候选文本生成的第二句法数据、第二语义数据和第二话语数据;将所述第一语言数据和所述第二语言数据提供给机器学习模型,所述机器学习模型先前经训练以作为输出提供从非结构化文本的实例生成的答案,所述机器学习模型被配置为接收包括与问题和所述非结构化文本的实例相关联的语言数据的输入;从所述机器学习模型来接收从所述答案候选文本中识别出的答案;以及响应于所述用户查询来提供所述复杂问题的答案。2.根据权利要求1所述的方法,其中,生成所述第一语言数据包括:从所述用户查询生成句法树,所述句法树包括第一组节点和第一组边,所述第一组节点表示所述用户查询的各个词语,所述第一组边表示相应的词语对之间的句法关系;生成所述用户查询的抽象含义表示,所述抽象含义表示包括有向无环图,所述有向无环图包括第二组节点和第二组边,所述第二组节点表示所述用户查询的词语,所述第二组边表示词语对之间的语义关系;以及从所述用户查询生成话语树,所述话语树包括第三组节点和第三组边,所述第三组节点表示所述用户查询的所述词语,所述第三组边表示对应的所述词语对之间的修辞关系。3.根据权利要求1所述的方法,其中,生成所述第二语言数据包括:从所述答案候选文本生成句法树,所述句法树包括第一组节点和第一组边,所述第一组节点表示所述答案候选文本的各个词语,所述第一组边表示相应的词语对之间的句法关系;生成所述答案候选文本的抽象含义表示,所述抽象含义表示包括有向无环图,所述有向无环图包括第二组节点和第二组边,所述第二组节点表示所述答案候选文本的词语,所述第二组边表示词语对之间的语义关系;以及从所述答案候选文本生成话语树,所述话语树包括第三组节点和第三组边,所述第三组节点表示所述答案候选文本的所述词语,所述第三组边表示基本话语单元之间的修辞关系。4.根据权利要求1所述的方法,其中,所述机器学习模型包括自注意力网络,所述自注意力网络经训练以从作为输入提供的数据生成词嵌入,所述词嵌入表示所述输入的每个词语和每个词语的对应的重要性权重,所述对应的重要性权重是基于以下各者中的至少一者生成:词语对之间的句法关系、语义关系或修辞关系。5.根据权利要求1所述的方法,其进一步包括:至少部分地基于域特定本体来识别所述用户查询或所述答案候选文本中的至少一者的一个或多个实体;以及对于所述一个或多个实体中的每一者,从所述域特定本体中识别每个实体的一个或多
个属性。6.根据权利要求5所述的方法,其进一步包括:基于针对所述用户查询或所述答案候选文本所识别的所述一个或多个实体或者一个或多个属性来证实所述答案。7.根据权利要求1所述的方法,其中,证实所述答案进一步包括:计算在所述答案中识别的第一组实体和在所述用户查询中识别的第二组实体之间的句法泛化得分;以及至少部分地基于识别所述句法泛化得分超过预定义阈值来确定所述答案是有效的。8.一种计算装置,其包括:一个或多个处理器;以及一个或多个存储器,其存储用于从非结构化文本中识别复杂问题的答案的计算机可执行指令,所述计算机可执行指令在由所述一个或多个处理器执行时使得所述计算装置执行以下操作:接收包括所述复杂问题的用户查询;从非结构化文本的语料库获得答案候选文本,所述答案候选文本对应于所述用户查询且包括随后从中生成所述答案的文本;生成对应于所述用户查询的第一语言数据以及对应于所述答案候选文本的第二语言数据,所述第一语言数据包括从所述用户查询生成的第一句法数据、第一语义数据和第一话语数据,所述第二语言数据包括从所述非结构化文本生成的第二句法数据、第二语义数据和第二话语数据;将所述第一语言数据和所述第二语言数据提供给机器学习模型,所述机器学习模型先前经训练以作为输出提供从非结构化文本的实例生成的答案,所述机器学习模型被配置为接收包括与问题和所述非结构化文本的实例相关联的语言数据的输入;从所述机器学习模型来接收从所述答案候选文本中识别出的答案;以及响应于所述用户查询来提供所述复杂问题的答案。9.根据权利要求8所述的计算装置,其中,生成所述第一语言数据进一步使得所述计算装置执行以下操作:从所述用户查询生成句法树,所述句法树包括第一组节点和第一组边,所述第一组节点表示所述用户查询的各个词语,所述第一组边表示相应的词语对之间的句法关系;生成所述用户查询的抽象含义表示,所述抽象含义表示包括有向无环图,所述有向无环图包括第二组节点和第二组边,所述第二组节点表示所述用户查询的词语,所述第二组边表示词语对之间的语义关系;以及从所述用户查询生成话语树,所述话语树包括第三组节点和第三组边,所述第三组节点表示所述用户查询的所述词语,所述第三组边表示对应的所述词语对之间的修辞关系。10.根据权利要求8所述的计算装置,其中,生成所述第二语言数据进一步使得所述计算装置执行以下操作:从所述答案候选文本生成句法树,所述句法树包括第一组节点和第一组边,所述第一组节点表示所述答案候选文本的各个词语,所述第一组边表示...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。