当前位置: 首页 > 专利查询>清华大学专利>正文

一种远程监督检索数据的降噪方法技术

技术编号:19857742 阅读:52 留言:0更新日期:2018-12-22 11:45
本发明专利技术提供一种远程监督检索数据的降噪方法,包括:对于给定问题和基于给定问题检索到的多个段落,计算给定问题的答案在各段落上的概率分布;基于给定问题和任一段落,利用段落阅读器,提取该段落中与答案对应的至少一个特定子串,并计算特定子串关于该段落为答案的概率,作为第一概率,直至遍历所有段落;基于概率分布和所有段落中特定子串对应的第一概率,选择相应的段落,对给定问题进行回答;其中,特定子串为由一个或多个单词组成的单词串。本发明专利技术能够更充分的利用检索到的相关文本中对回答问题有帮助的所有段落,从而更有效的提高开放域问答的问答效果,提高模型的稳定性,具有良好的实用性。

【技术实现步骤摘要】
一种远程监督检索数据的降噪方法
本专利技术涉及自然语言处理及信息抽取
,更具体地,涉及一种远程监督检索数据的降噪方法。
技术介绍
近年来,阅读理解给定文档,回答关于文档的特定问题,已经成为自然语言处理研究的一个热点。目前,已经实现了许多用于自然语言处理的阅读理解系统,这些阅读理解系统在很多开源评测上取得了不错的效果。这些系统模型的多层次结构和选择注意力机制使得其可以对给定问题在文档中进行推理。从而,现有的阅读理解系统已经展示出神经网络模型用于阅读、处理和理解自然语言文本的能力。虽然现有的阅读理解模型已经取得了不错的效果,但是这些模型只能在预先给定的相关文本的情景下回答问题。事实上,在日常生活的问答场景中并不可能预先给定相关的文本。因此,现有的阅读理解技术不能直接应用于更加具有现实意义的开放领域问答任务。最近,一种基于远程监督思想的开放域问答系统被提出,用以解决如何利用大规模的文本库来回答开放领域的问题。该系统使用信息检索技术从维基百科获取和问题相关文本,然后使用阅读理解技术在获取到的文本中提取答案。然而,尽管基于远程监督思想的开放域问答实现了自动收集和问题相关文本的有效策略,但本文档来自技高网...

【技术保护点】
1.一种远程监督检索数据的降噪方法,其特征在于,包括:对于给定问题和基于所述给定问题检索到的多个段落,计算所述给定问题的答案在各所述段落上的概率分布;基于所述给定问题和任一所述段落,利用段落阅读器,提取该段落中与所述答案对应的至少一个特定子串,并计算所述特定子串关于该段落为所述答案的概率,作为第一概率,直至遍历所有所述段落;基于所述概率分布和所有所述段落中特定子串对应的所述第一概率,选择相应的段落,对所述给定问题进行回答;其中,所述特定子串为由一个或多个单词组成的单词串。

【技术特征摘要】
1.一种远程监督检索数据的降噪方法,其特征在于,包括:对于给定问题和基于所述给定问题检索到的多个段落,计算所述给定问题的答案在各所述段落上的概率分布;基于所述给定问题和任一所述段落,利用段落阅读器,提取该段落中与所述答案对应的至少一个特定子串,并计算所述特定子串关于该段落为所述答案的概率,作为第一概率,直至遍历所有所述段落;基于所述概率分布和所有所述段落中特定子串对应的所述第一概率,选择相应的段落,对所述给定问题进行回答;其中,所述特定子串为由一个或多个单词组成的单词串。2.根据权利要求1所述的方法,其特征在于,所述计算所述给定问题的答案在各所述段落上的概率分布的步骤进一步包括:将所述给定问题中的每个单词用词向量进行表示,获取多个词向量,作为第一词向量,并基于所述第一词向量,构建所述给定问题对应的词向量组,作为第一词向量组;对于任一所述段落,将该段落中的每个单词用词向量进行表示,获取多个词向量,作为第二词向量,并基于所述第二词向量,构建该段落对应的词向量组,作为第二词向量组,直至遍历所有所述段落;基于所述第一词向量组和每个所述段落对应的第二词向量组,利用包含池化层和softmax层的神经网络,计算每个所述段落包含所述答案的概率,作为第二概率;基于每个所述段落对应的所述第二概率,计算所述概率分布。3.根据权利要求2所述的方法,其特征在于,在所述获取多个词向量,作为第一词向量的步骤之后,还包括:将所述第一词向量输入多层感知机,获取隐变量表示的第一词向量;相应的,所述基于所述第一词向量,构建所述给定问题对应的词向量组,作为第一词向量组的步骤进一步包括:基于所述隐变量表示的第一词向量,构建所述给定问题对应的隐变量表示的第一词向量组。4.根据权利要求2所述的方法,其特征在于,所述基于所述第一词向量,构建所述给定问题对应的词向量组,作为第一词向量组的步骤进一步包括:利用所述第一词向量,生成向量序列,并将所述向量序列输入循环神经网络,获取隐变量表示的第一词向量组;其中,所述循环神经网络的网络单元选取为单层双向长短期记忆网络。5.根据权利要求3或4所述的方法,其特征在于,在获取所述隐变量表示的第一词向量组的步骤之后,还包括:基于所述给定问题中每个单词的权重以及所述隐变量表示的第一词向量组中的每个对应元素,利用自我选择注意力机制,计算最终的问题向量表示;其中,所述权重按如下公式计算:式中,αj表示所述给定问题中第j个单词的权重,wb表示选择注意力机制中的选择向量,表示问题经过长短期记忆网络后的向量表示,i=1,2,...,m,m表示问题的长度。6.根据权利要求1-4中任一所述的方法,其特征在于,在所述计算所述给定问题的答案在各所述段落上的概率分布的步骤之后,还包括:基于所述概率分布,选取所有所述段落中概率值满足设定条件的段落,作为相关段落...

【专利技术属性】
技术研发人员:刘知远林衍凯计昊哲孙茂松
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1