The invention discloses an open domain question answering method based on hypothetical semi-supervised learning, which comprises: (1) extracting Question-Related articles from a corpus using information retrieval technology; (2) assuming that articles from a given question answering training set are unique positive labels, all articles extracted from the corpus are negative labels (3) Construct a depth learning model and train a reader to select the right answer from the text by training a text scorer to learn the features of positive label; (4) Sort the first n articles with high relevance into the scorer and re-label them according to the score; (5) Repeat steps 3 and 4, and be straightforward. To model convergence; (6) model training is completed, and open domain Q & a application. The invention can greatly improve the article extraction quality and the accuracy of the answers of the existing open domain question answering system without relying on additional manual annotation and external knowledge.
【技术实现步骤摘要】
一种基于假设性半监督学习的开放领域问答方法
本专利技术涉及自然语言处理领域,具体涉及一种基于假设性半监督学习的开放领域问答方法。
技术介绍
近年来,开放领域问答问题成为了自然语言处理中十分热门和棘手的问题。在这个任务中,给定一个语料库和一个问题,算法系统将从语料库中返回一个答案。它和机器阅读理解最大的不同就是它除了根据文章回答问题外还增加了从语料库寻找文章的过程。开放领域问答系统的应用十分广泛,因为传统的搜索引擎只能满足很小部分人需求并且返回的答案大部分只是网页链接而不是一个具体的答案。一个能从大量语料库中抽取文章并给出理想答案的问答系统能够被广泛应用到例如体育、法律、医学等领域。由于知识库技术的发展,早期的开放领域问答任务都用知识库来作为知识来源。然而,人们也随之发现建造一个新知识库是十分耗时耗力的,并且知识库单一的结构也使很多问题得不到令人满意的答案。最近,由于机器阅读理解技术的发展,由原始文档组成的语料库顶替知识库进入了人们的视野。在2017年的国际自然语言处理顶级会议AnnualMeetingoftheAssociationforComputationalLinguistics中,论文《ReadingWikipediatoAnswerOpen-DomainQuestions》的第3页到第5页公开了一种叫DrQA的开放领域问答方法,它在几个公开数据集上取得了可观的效果并受到了业内的好评和广泛应用。然而,这样的算法是在抽取文档这一步使用简单的信息检索系统然后直接将结果不加区分地送入阅读理解步骤中,所以过于简单并且没有语义分析,这将导致很多同义句的问题失 ...
【技术保护点】
1.一种基于假设性半监督学习的开放领域问答方法,其特征在于,包括以下步骤:(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;(3)构建深度学习模型,通过训练一个文章打分器来学习正标签文章的特征,同时训练一个阅读器以从文章中选择正确答案;(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;(5)重复步骤3和步骤4,直到整个深度学习模型收敛;(6)模型训练完毕,进行开放领域问答应用。
【技术特征摘要】
1.一种基于假设性半监督学习的开放领域问答方法,其特征在于,包括以下步骤:(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;(3)构建深度学习模型,通过训练一个文章打分器来学习正标签文章的特征,同时训练一个阅读器以从文章中选择正确答案;(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;(5)重复步骤3和步骤4,直到整个深度学习模型收敛;(6)模型训练完毕,进行开放领域问答应用。2.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法,其特征在于,步骤(1)的具体步骤为:将所有文章用词频-逆向文件频率加权的词袋来表示,并使用二维的n-gram模型对所有短语进行特征表达,设定每个问题匹配的文章数量后,使用倒排索引来匹配相关文章。3.根据权利要求1所述的基于假设性半监督学习的开放领域问答方法,其特征在于,步骤(3)中,所述的文章打分器的训练过程为:首先利用词向量Glove对所有的单词进行词嵌入,然后使用词性标注和实体命名识别获得文本的语法和语义信息,使用双向的长短时记忆网络对文本进行编码,并用一个矩阵来表达一篇文章,最后根据文章和问题的匹配度对文章进行打分,公式为:sk=max(softmax(Hk*uT)*Hk)其中,Hk是第k篇文章Pk的表达矩阵,uT是问题q...
【专利技术属性】
技术研发人员:潘博远,蔡登,姜兴华,陈哲乾,赵洲,何晓飞,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。