当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于机器阅读到序列模型的迁移学习方法技术

技术编号:20655180 阅读:29 留言:0更新日期:2019-03-23 06:51
本发明专利技术公开了一种基于机器阅读到序列模型的迁移学习方法,包括以下步骤:(1)预训练一个机器阅读模型,所述机器阅读模型包含基于循环神经网络的编码层和模型层;(2)建立一个序列模型,所述序列模型包含基于循环神经网络的编码器和解码器;(3)提取训练好的机器阅读模型中编码层和模型层的参数,迁移到待训练的序列模型中,作为训练序列模型时的部分初始化参数;(4)训练序列模型,直到模型收敛;(5)使用训练好的序列模型进行文本序列预测任务。利用本发明专利技术,能够更加深入地挖掘文本蕴含信息,提升生成文本序列的质量。

【技术实现步骤摘要】
一种基于机器阅读到序列模型的迁移学习方法
本专利技术属于自然语言处理
,尤其是涉及一种基于机器阅读到序列模型的迁移学习方法。
技术介绍
机器阅读是自然语言处理中最为热门和棘手的问题之一,它要求模型理解自然语言并能够运用现存的知识。目前最热门的任务一般会给定一篇文章和一个问题,我们需要根据问题从文章中寻找答案。随着近年来几个高质量数据集的发布,以神经网络为基础的模型在机器阅读上的表现越来越好,甚至在一些数据集上超过了人类。一个高效的机器阅读模型可以在以语义理解为基础的众多领域得到广泛应用,如对话机器人,问答系统和搜索引擎等。附带注意力机制的序列模型主要由一个编码器和一个解码器组成,在编码器将输入的序列编码后由解码器依次输出并生成序列。这样的结构在自然语言生成任务如机器翻译,文本摘要和对话系统中取得了巨大的成功。然而,在训练这样的编码器-解码器时,我们只是通过将输出的结果对比固定的参考样本来进行优化,很难深入理解文本中蕴含的潜在语义信息。迁移学习,指将多种领域的知识或特征结合来建立新的模型和概率分布。在自然语言处理领域,迁移学习得到了广泛的应用。比如2011年发表在国际顶级机器学习理论期刊JournalofMachineLearningResearch上的《NaturalLanguageProcessing(almost)fromScratch》公布了一种统一的神经网络结构并能够将无监督学习运用到众多自然语言处理任务如词性标注,实体命名识别中;2017年发表在国际顶级计算神经理论会议AnnualConferenceonNeuralInformationProcessingSystems上的《LearnedinTranslation:ContextualizedWordVectors》公布了一种将机器翻译的编码器预训练后迁移到文本分类任务和问答系统中,作为一种新的词向量来提升原有词向量的丰富度;2018年发表在国际顶级自然语言处理会议Proceedingsofthe56thAnnualMeetingoftheAssociationforComputationalLinguistics上的《DiscourseMarkerAugmentedNetworkwithReinforcementLearningforNaturalLanguageInference》公布了一种基于连词的训练方法,首先在连词预测任务中训练一个编码器,然后将这个编码器嵌入一个自然语言推理模型中来提高模型的逻辑能力。然而,现有的自然语言处理迁移学习方法很少有将多层神经网络转移到其他任务上,仅仅将编码层迁移会损失大量原有预训练模型的信息。
技术实现思路
本专利技术提供了一种基于机器阅读到序列模型的迁移学习方法,能够更加深入地挖掘文本蕴含信息,提升生成文本序列的质量。本专利技术采用的技术方案如下:一种基于机器阅读到序列模型的迁移学习方法,包括以下步骤:(1)预训练一个机器阅读模型,所述机器阅读模型包含基于循环神经网络的编码层和模型层;(2)建立一个序列模型,所述序列模型包含基于循环神经网络的编码器、解码器和注意力机制;(3)提取训练好的机器阅读模型中编码层和模型层的参数,迁移到待训练的序列模型中,作为训练序列模型的部分初始化参数;(4)训练序列模型,直到模型收敛;(5)使用训练好的序列模型进行文本序列预测任务。本专利技术首先预训练一个包含编码层和模型层的机器阅读模型作为迁移来源,然后将其编码层和模型层嵌入到序列模型中与已有的编码结果融合,最终输出标签的概率分布。该方法能够帮助序列模型更加深入地理解文本蕴意并生成更加自然的文本。步骤(1)中,所述的编码层中的循环神经网络为双向长短时记忆网络,所述的模型层中的循环神经网络为单向长短时记忆网络。步骤(1)中,预训练机器模型的具体步骤为:(1-1)选择训练数据,使用词向量Glove对输入文本做词嵌入,之后送入编码层的双向长短时记忆网络中;(1-2)将每个隐藏单元并排连接在一起组成该方向整个句子的表达,并将两个方向的句子表达合并作为输入序列的最终表达;(1-3)将文章序列的最终表达和问题序列的最终表达结合送入到模型的注意力机制中,输出注意力矩阵;(1-4)将注意力矩阵输入到模型层的单向长短时记忆网络中,使用该网络的隐藏单元进行规则化,输出预测的概率分布;(1-5)重复上述步骤,直到机器阅读模型收敛。步骤(2)中,序列模型主要由一个编码器和一个解码器组成,为了与迁移来源的参数保持统一,同样采用长短时记忆网络作为序列模型的主要参数组成部分,所述的编码器中的循环神经网络为双向长短时记忆网络。步骤(3)中,提取的编码层和模型层参数为编码层和模型层中的循环神经网络。将编码层的网络和模型层的网络分别提取出来,迁移到待训练的序列模型中,作为训练序列模型的部分初始化参数。步骤(4)的具体步骤为:(4-1)将输入的词序列同时送入序列模型的编码器和迁移来的机器阅读模型的编码层中,得到编码后的合并向量;(4-2)将合并向量送入一个单向长短时记忆进行整合,得到对输入文本序列整合后的编码向量;(4-3)将整合后的编码向量作为解码器的初始化向量,并将解码器的隐藏单元和整合向量的单元进行注意力交互,得到注意力向量at,其中t是解码的第t个单词;(4-4)将注意力向量at输入到迁移来的机器阅读模型层中,然后将模型层的输出向量rt与注意力向量at用线性函数整合并送入softmax函数中得到预测序列的概率分布;所述的softmax函数的公式为:P(yt|y<t,x)=softmax(Wpat+Wqrt+bp)其中,Wp、Wq和bp都是待训练的参数,yt是解码器输出的第t个单词。(4-5)重复上述步骤,直到模型收敛。本专利技术具有以下有益效果:1、本专利技术使用迁移学习将其他问答系统中所学的知识转移到了文本生成任务当中,提升了编码器-解码器结构的准确率,整个模型简洁直观。2、本专利技术充分利用了现有机器阅读模型的高性能,迁移的参数含有多层神经网络,将训练好的机器阅读模型参数替代序列模型参数随机初始化,能够帮助序列模型更加深入地挖掘文本蕴含的信息,使得内容更有深度,提升生成文本序列的质量。附图说明图1为本专利技术一种基于机器阅读到序列模型的迁移学习方法的流程示意图;图2为本专利技术中机器阅读模型和序列模型的整体结构示意图。具体实施方式为了使本专利技术的目的、技术方案和有益技术效果更加清晰明白,以下结合附图进一步详细描述本专利技术的
技术实现思路
和具体实施方式。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本专利技术,并不是为了限定本专利技术。如图1所示,一种基于机器阅读到序列模型的迁移学习方法,包括以下步骤:S01,预训练一个机器阅读模型。我们使用斯坦福问答数据集SQuAD这个大规模高质量语料库作为训练集,我们的任务是给定一篇文章和一个问题来预测答案,该答案是文章中的一个连续字段。机器阅读模型的结构参见图2,我们用现有的词向量Glove来对输入文本做词嵌入,之后送入编码层(EncodingLayer)的双向长短时记忆网络(BiLSTM)中。我们把每个隐藏单元都并排连在一起组成该方向整个句子的表达,并将两个方向的句子表达合并在一起作为输入序列的最终表达。随后,我们将文章序列的表达本文档来自技高网
...

【技术保护点】
1.一种基于机器阅读到序列模型的迁移学习方法,其特征在于,包括以下步骤:(1)预训练一个机器阅读模型,所述机器阅读模型包含基于循环神经网络的编码层和模型层;(2)建立一个序列模型,所述序列模型包含基于循环神经网络的编码器、解码器和注意力机制;(3)提取训练好的机器阅读模型中编码层和模型层的参数,迁移到待训练的序列模型中,作为训练序列模型时的部分初始化参数;(4)训练序列模型,直到模型收敛;(5)使用训练好的序列模型进行文本序列预测任务。

【技术特征摘要】
1.一种基于机器阅读到序列模型的迁移学习方法,其特征在于,包括以下步骤:(1)预训练一个机器阅读模型,所述机器阅读模型包含基于循环神经网络的编码层和模型层;(2)建立一个序列模型,所述序列模型包含基于循环神经网络的编码器、解码器和注意力机制;(3)提取训练好的机器阅读模型中编码层和模型层的参数,迁移到待训练的序列模型中,作为训练序列模型时的部分初始化参数;(4)训练序列模型,直到模型收敛;(5)使用训练好的序列模型进行文本序列预测任务。2.根据权利要求1所述的基于机器阅读到序列模型的迁移学习方法,其特征在于,步骤(1)中,所述的编码层中的循环神经网络为双向长短时记忆网络,所述的模型层中的循环神经网络为单向长短时记忆网络。3.根据权利要求2所述的基于机器阅读到序列模型的迁移学习方法,其特征在于,步骤(1)中,预训练的具体步骤为:(1-1)选择训练数据,使用词向量Glove对输入文本做词嵌入,之后送入编码层的双向长短时记忆网络中;(1-2)将每个隐藏单元并排连接在一起组成该方向整个句子的表达,并将两个方向的句子表达合并作为输入序列的最终表达;(1-3)将文章序列的最终表达和问题序列的最终表达结合送入到模型的注意力机制中,输出注意力矩阵;(1-4)将注意力矩阵输入到模型层的单向长短时记忆网络中,使用该网络的隐藏...

【专利技术属性】
技术研发人员:潘博远蔡登李昊陈哲乾赵洲何晓飞
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1