一种基于机器阅读到序列模型的迁移学习方法技术

技术编号：20655180 阅读：29 留言：0更新日期：2019-03-23 06:51

本发明专利技术公开了一种基于机器阅读到序列模型的迁移学习方法，包括以下步骤：(1)预训练一个机器阅读模型，所述机器阅读模型包含基于循环神经网络的编码层和模型层；(2)建立一个序列模型，所述序列模型包含基于循环神经网络的编码器和解码器；(3)提取训练好的机器阅读模型中编码层和模型层的参数，迁移到待训练的序列模型中，作为训练序列模型时的部分初始化参数；(4)训练序列模型，直到模型收敛；(5)使用训练好的序列模型进行文本序列预测任务。利用本发明专利技术，能够更加深入地挖掘文本蕴含信息，提升生成文本序列的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器阅读到序列模型的迁移学习方法
本专利技术属于自然语言处理
，尤其是涉及一种基于机器阅读到序列模型的迁移学习方法。
技术介绍
机器阅读是自然语言处理中最为热门和棘手的问题之一，它要求模型理解自然语言并能够运用现存的知识。目前最热门的任务一般会给定一篇文章和一个问题，我们需要根据问题从文章中寻找答案。随着近年来几个高质量数据集的发布，以神经网络为基础的模型在机器阅读上的表现越来越好，甚至在一些数据集上超过了人类。一个高效的机器阅读模型可以在以语义理解为基础的众多领域得到广泛应用，如对话机器人，问答系统和搜索引擎等。附带注意力机制的序列模型主要由一个编码器和一个解码器组成，在编码器将输入的序列编码后由解码器依次输出并生成序列。这样的结构在自然语言生成任务如机器翻译，文本摘要和对话系统中取得了巨大的成功。然而，在训练这样的编码器-解码器时，我们只是通过将输出的结果对比固定的参考样本来进行优化，很难深入理解文本中蕴含的潜在语义信息。迁移学习，指将多种领域的知识或特征结合来建立新的模型和概率分布。在自然语言处理领域，迁移学习得到了广泛的应用。比如2011年发表在国际顶级机器学习理论期刊JournalofMachineLearningResearch上的《NaturalLanguageProcessing(almost)fromScratch》公布了一种统一的神经网络结构并能够将无监督学习运用到众多自然语言处理任务如词性标注，实体命名识别中；2017年发表在国际顶级计算神经理论会议AnnualConferenceonNeuralInformationP...

【技术保护点】
1.一种基于机器阅读到序列模型的迁移学习方法，其特征在于，包括以下步骤：(1)预训练一个机器阅读模型，所述机器阅读模型包含基于循环神经网络的编码层和模型层；(2)建立一个序列模型，所述序列模型包含基于循环神经网络的编码器、解码器和注意力机制；(3)提取训练好的机器阅读模型中编码层和模型层的参数，迁移到待训练的序列模型中，作为训练序列模型时的部分初始化参数；(4)训练序列模型，直到模型收敛；(5)使用训练好的序列模型进行文本序列预测任务。

【技术特征摘要】
1.一种基于机器阅读到序列模型的迁移学习方法，其特征在于，包括以下步骤：(1)预训练一个机器阅读模型，所述机器阅读模型包含基于循环神经网络的编码层和模型层；(2)建立一个序列模型，所述序列模型包含基于循环神经网络的编码器、解码器和注意力机制；(3)提取训练好的机器阅读模型中编码层和模型层的参数，迁移到待训练的序列模型中，作为训练序列模型时的部分初始化参数；(4)训练序列模型，直到模型收敛；(5)使用训练好的序列模型进行文本序列预测任务。2.根据权利要求1所述的基于机器阅读到序列模型的迁移学习方法，其特征在于，步骤(1)中，所述的编码层中的循环神经网络为双向长短时记忆网络，所述的模型层中的循环神经网络为单向长短时记忆网络。3.根据权利要求2所述的基于机器阅读到序列模型的迁移学习方法，其特征在于，步骤(1)中，预训练的具体步骤为：(1-1)选择训练数据，使用词向量Glove对输入文本做词嵌入，之后送入编码层的双向长短时记忆网络中；(1-2)将每个隐藏单元并排连接在一起组成该方向整个句子的表达，并将两个方向的句子表达合并作为输入序列的最终表达；(1-3)将文章序列的最终表达和问题序列的最终表达结合送入到模型的注意力机制中，输出注意力矩阵；(1-4)将注意力矩阵输入到模型层的单向长短时记忆网络中，使用该网络的隐藏...

【专利技术属性】
技术研发人员：潘博远，蔡登，李昊，陈哲乾，赵洲，何晓飞，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人