当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于假设性半监督学习的开放领域问答方法技术

技术编号:19277394 阅读:85 留言:0更新日期:2018-10-30 17:59
本发明专利技术公开了一种基于假设性半监督学习的开放领域问答方法,包括:(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;(3)构建深度学习模型,通过训练一个文章打分器学习正标签的特征,训练一个阅读器从文章中选择正确答案;(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;(5)重复步骤3和步骤4,直到模型收敛;(6)模型训练完毕,进行开放领域问答应用。利用本发明专利技术可以在不依赖额外人工标注和外部知识的情况下大幅提升现有开放领域问答系统的文章抽取质量和答案的准确率。

An open domain question answering method based on hypothetical semi supervised learning

The invention discloses an open domain question answering method based on hypothetical semi-supervised learning, which comprises: (1) extracting Question-Related articles from a corpus using information retrieval technology; (2) assuming that articles from a given question answering training set are unique positive labels, all articles extracted from the corpus are negative labels (3) Construct a depth learning model and train a reader to select the right answer from the text by training a text scorer to learn the features of positive label; (4) Sort the first n articles with high relevance into the scorer and re-label them according to the score; (5) Repeat steps 3 and 4, and be straightforward. To model convergence; (6) model training is completed, and open domain Q & a application. The invention can greatly improve the article extraction quality and the accuracy of the answers of the existing open domain question answering system without relying on additional manual annotation and external knowledge.

【技术实现步骤摘要】
一种基于假设性半监督学习的开放领域问答方法
本专利技术涉及自然语言处理领域,具体涉及一种基于假设性半监督学习的开放领域问答方法。
技术介绍
近年来,开放领域问答问题成为了自然语言处理中十分热门和棘手的问题。在这个任务中,给定一个语料库和一个问题,算法系统将从语料库中返回一个答案。它和机器阅读理解最大的不同就是它除了根据文章回答问题外还增加了从语料库寻找文章的过程。开放领域问答系统的应用十分广泛,因为传统的搜索引擎只能满足很小部分人需求并且返回的答案大部分只是网页链接而不是一个具体的答案。一个能从大量语料库中抽取文章并给出理想答案的问答系统能够被广泛应用到例如体育、法律、医学等领域。由于知识库技术的发展,早期的开放领域问答任务都用知识库来作为知识来源。然而,人们也随之发现建造一个新知识库是十分耗时耗力的,并且知识库单一的结构也使很多问题得不到令人满意的答案。最近,由于机器阅读理解技术的发展,由原始文档组成的语料库顶替知识库进入了人们的视野。在2017年的国际自然语言处理顶级会议AnnualMeetingoftheAssociationforComputationalLinguistics中,论文《ReadingWikipediatoAnswerOpen-DomainQuestions》的第3页到第5页公开了一种叫DrQA的开放领域问答方法,它在几个公开数据集上取得了可观的效果并受到了业内的好评和广泛应用。然而,这样的算法是在抽取文档这一步使用简单的信息检索系统然后直接将结果不加区分地送入阅读理解步骤中,所以过于简单并且没有语义分析,这将导致很多同义句的问题失去了能够匹配到包含答案的文章的机会。
技术实现思路
本专利技术提供了一种基于假设性半监督学习的开放领域问答方法,同时训练一个文章打分器和一个阅读器,可以在不依赖额外人工标注和外部知识的情况下大幅提升现有开放领域问答系统的文章抽取质量和最终答案的准确率。一种基于假设性半监督学习的开放领域问答方法,包括以下步骤:(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;(3)构建深度学习模型,通过训练一个文章打分器来学习正标签文章的特征,同时训练一个阅读器以从文章中选择正确答案;(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;(5)重复步骤3和步骤4,直到整个深度学习模型收敛;(6)模型训练完毕,进行开放领域问答应用。本专利技术将问答数据集中每个问题给定的文章和从语料库中抽取的文章混在一起,并假设只有问答数据集的文章是正标签,其余都是负的。同时训练一个文章打分器和一个阅读器,通过不断优化文章打分器来学习正标签文章的特征,希望能够对类似的文章打高分。在随后的训练步骤中不断地选一些相关度很高的抽取出来的文章进行重新标注,以增强正标签文章的多样性和整个算法的鲁棒性。整个算法以最大化正确答案的概率和打分系统对正标签的分数为目标来优化每个步骤。步骤(1)的具体步骤为:将所有文章用词频-逆向文件频率加权的词袋来表示,并使用二维的n-gram模型对所有短语进行特征表达,设定每个问题匹配的文章数量后,使用倒排索引来匹配相关文章。步骤(3)中,所述的文章打分器的训练过程为:首先利用词向量Glove对所有的单词进行词嵌入,然后使用词性标注和实体命名识别获得文本的语法和语义信息,使用双向的长短时记忆网络对文本进行编码,并用一个矩阵来表达一篇文章,最后根据文章和问题的匹配度对文章进行打分,公式为:sk=max(softmax(Hk*uT)*Hk)其中,Hk是第k篇文章Pk的表达矩阵,uT是问题q的表达向量u的转置。所述阅读器的训练过程为:使用现有的知识库WordNet作为辅助工具,使用长短时记忆网络对文本进行编码,并引用注意力机制,得到文章和问题的注意力向量,计算公式为:其中,hi为文章第i个词的表达向量,uj为问题第j个词的表达向量,F是关于WordNet向量r的一个非线性函数,ReLU是激活函数,eij为文章第i个词和问题第j个词的注意力向量。得到文章和问题的注意力向量后,使用非线性函数获得答案字符串首字符和末字符的概率分布:Pstart=softmax(exp(HWsu))Pend=softmax(exp(HWeu))其中,H为文章第i个词的表达向量的整合矩阵,u为问题第j个词的表达向量的加权平均向量,Ws和We是两个训练参数,Pstart和Pend为答案字符串首字符和末字符的概率分布。对于训练的模型,我们将文章打分器和阅读器的目标函数用一个线性函数结合了起来。在文章打分器中,我们的目标是最大化正标签文章的分数;在阅读器中,我们最大化正确答案首尾字母的概率;最终我们用一个线性函数将它们结合。步骤(4)中用到了半监督学习,所述的相关性排序使用余弦距离函数,根据负标签的文章与原文章的距离进行排序。训练模型时,目标函数由两部分的线性组合构成:目标函数1为最大化文章打分器对正确文章的打分,目标函数2为最大化阅读器给出的正确答案的概率分布。步骤(6)中,在应用模型的时候,将之前文章打分器和阅读器的结果结合起来进行筛选,得到置信度最大的答案。本专利技术基于假设性半监督学习方法具有以下有益效果:1、本方法使用半监督学习的算法来自动重新标注从语料库中抽取的文章标签,不依赖任何外部知识来源或者人工标注,因此本方法可以被延用到大量的相关领域。2、本专利技术的文章打分器采用深度学习神经网络模型来对文章和问题做出语义分析,避免了检索过程中单纯依靠字符串匹配所带来的信息遗漏。对于从语料库中抽取的文章做了后续的语意分析处理以匹配到正确的答案。3、本专利技术充分利用了现有机器阅读理解数据集的信息,使用已有的高质量大型开源问答数据集中的文章和问题二元组来进行训练,使得人工匹配的高质量文章的特征能够被充分学习。附图说明图1为本专利技术基于假设性半监督学习的开放领域问答方法的流程示意图;图2为本专利技术基于假设性半监督学习的开放领域问答方法的结构示意图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好的理解本专利技术。如图1所示,一种基于假设性半监督学习的开放领域问答方法,如图2所示,为本专利技术的结构示意图。本专利技术方法的具体步骤如下:S01,使用信息检索技术从语料库中将与问题q相关的文章抽取出来。我们将所有文档用词频-逆向文件频率加权的词袋来表示,并使用二维的n-gram模型对所有短语进行特征表达。我们使用倒排索引来匹配相关文章,每个问题匹配的文章数量设定为5个。S02,假设给定问答训练集自带的文章Pg是唯一的正标签,从语料库中抽取的所有文章{Pi}i=1:N都是负标签。我们使用斯坦福阅读问答数据集作为训练集,这个数据集的形式是一个个的三元组(问题,文章,答案),其中文章是包含这个问题的答案的。在开放领域问答任务中,我们本应只被提供二元组(问题,答案),但我们使用机器阅读理解的数据集来训练,希望能够让模型学习正确文章的特征来提升从语料库中抽取文章的准确率。我们训练的时候使用三元组,然后针对问题使用步骤S01中的信息检索技术从语料库中抽取5篇文章,与三元组中的文章混合在一起。我们假设本文档来自技高网
...

【技术保护点】
1.一种基于假设性半监督学习的开放领域问答方法,其特征在于,包括以下步骤:(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;(3)构建深度学习模型,通过训练一个文章打分器来学习正标签文章的特征,同时训练一个阅读器以从文章中选择正确答案;(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;(5)重复步骤3和步骤4,直到整个深度学习模型收敛;(6)模型训练完毕,进行开放领域问答应用。

【技术特征摘要】
1.一种基于假设性半监督学习的开放领域问答方法,其特征在于,包括以下步骤:(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;(3)构建深度学习模型,通过训练一个文章打分器来学习正标签文章的特征,同时训练一个阅读器以从文章中选择正确答案;(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;(5)重复步骤3和步骤4,直到整个深度学习模型收敛;(6)模型训练完毕,进行开放领域问答应用。2.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法,其特征在于,步骤(1)的具体步骤为:将所有文章用词频-逆向文件频率加权的词袋来表示,并使用二维的n-gram模型对所有短语进行特征表达,设定每个问题匹配的文章数量后,使用倒排索引来匹配相关文章。3.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法,其特征在于,步骤(3)中,所述的文章打分器的训练过程为:首先利用词向量Glove对所有的单词进行词嵌入,然后使用词性标注和实体命名识别获得文本的语法和语义信息,使用双向的长短时记忆网络对文本进行编码,并用一个矩阵来表达一篇文章,最后根据文章和问题的匹配度对文章进行打分,公式为:sk=max(softmax(Hk*uT)*Hk)其中,Hk是第k篇文章Pk的表达矩阵,uT是问题q...

【专利技术属性】
技术研发人员:潘博远蔡登姜兴华陈哲乾赵洲何晓飞
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1