文本处理模型的训练方法、装置和文本处理方法制造方法及图纸

技术编号:22055296 阅读:32 留言:0更新日期:2019-09-07 15:16
本申请公开了文本处理模型的训练方法、装置及文本处理方法,所述训练方法应用于多个具有不同任务目标的文本处理模型,多个文本处理模型共享部分隐层。所述方法中,对于每一任务目标,首先将相应训练样本输入至相应文本处理模型中,输出任务目标值;其次根据输出的任务目标值计算预设损失函数的单任务损失值,根据各文本处理模型对应的单任务损失值计算多任务损失值;最后根据多任务损失值,调整每一文本处理模型的参数。多个文本处理模型同时并行学习,通过共享部分隐层来共享多个任务的浅层特征表示,梯度同时反向传播帮助隐层逃离局部极小值,可以提高每个模型的准确性和泛化性。将训练后的文本处理模型用以处理高层任务,可以提高结果准确性。

Training Method, Device and Text Processing Method of Text Processing Model

【技术实现步骤摘要】
文本处理模型的训练方法、装置和文本处理方法
本申请涉及自然语言处理
,尤其涉及一种文本处理模型的训练方法、装置和文本处理方法。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究如何使计算机既能理解自然语言文本的意义,又能通过自然语言文本来表达给定的意图、思想等,前者称为自然语言理解,后者称为自然语言生成。无论是自然语言理解,还是自然语言生成,其任务诸多,大体可按照任务类型分为词法分析,句子分析,语义分析,信息抽取,高层任务等。其中,由于所有自然语言都具有词法、句法特征,因此对于词法分析,句子分析等任务,无需限定句子领域,故可称为基础任务。而如文本分类、机器翻译、文本摘要、问答系统、对话系统、阅读理解等任务,为直接面向普通用户提供自然语言处理产品服务的系统级任务,并且涉及多个层面的自然语言处理技术,故为高层任务。基础任务亦或是高层任务的目标一般均通过一个基于机器学习的自然语言处理模型实现。模型的输入为自然语言文本数据,模型的输出则为任务目标。利用任务目标相应的大规模标注语料对模型进行训练并朝着训练目标不断优化,即可得到一个可对未知文本处理进而实现上述功能的优化模型。通常,机器学习为解决一个单一问题而针对单一任务目标进行,即单任务训练。然而,不同任务模型的数据集差异巨大,因此任务模型只能在本数据集上获得较好的效果,而对于非本数据集的数据,任务模型需遭受一定的泛化性损失。另外,不同数据集的文本之间天生具有隐式共性,而训练时只注重前述单一任务目标,因此会造成一定的信息丢失。因此,如何提高任务模型的准确性和泛化性,是亟待解决的技术问题。
技术实现思路
本申请提供了一种文本处理模型的训练方法、装置和文本处理方法,以提高任务模型的准确性和泛化性。第一方面,本申请提供了一种文本处理模型的训练方法,应用于多个具有不同任务目标的文本处理模型,所述多个文本处理模型共享部分隐层;对于每一任务目标,将相应训练样本输入至相应文本处理模型中,输出任务目标值;根据输出的任务目标值计算预设损失函数的单任务损失值,根据各文本处理模型对应的单任务损失值计算多任务损失值;根据所述多任务损失值,调整每一文本处理模型的参数。进一步,所述根据各文本处理模型对应的单任务损失值计算多任务损失值,包括:根据每一文本处理模型相应的训练样本数量,获取所述文本处理模型的参数调整权重;使用所述参数调整权重对所述单任务损失值加权求和,得到多任务损失值。进一步,所述文本处理模型的隐层包括基于预训练Bert模型的第一编码模块、经预训练的第二编码模块和融合模块,所述经预训练的第二编码模块为所述多个文本处理模型共享的所述部分隐层。进一步,所述第二编码模块包括自下至上依次串接的多个具有不同基础任务目标的第二编码子模块,以使每一所述第二编码子模块获取到输入文本的一种类型的共享特征。进一步,所述根据多任务损失值,调整每一文本处理模型的参数,包括:获取每一所述第二编码子模块预设的更新控制系数;根据所述多任务损失值和相应的更新控制系数,调整每一所述第二编码子模块的参数;根据所述多任务损失值,分别调整所述每一文本处理模型中所述第一编码模块、融合模块以及输出层的参数。进一步,按照下述步骤,对每一所述第二编码子模块进行预训练:根据每一所述第二编码子模块的基础任务目标,获取相应的训练样本集;将第i层第二编码子模块相应的训练样本,由第1层顺次输入至第i层中,第i层输出基础任务目标值,i表示第二编码子模块在自下至上方向上的排列序号;根据每层输出的基础任务目标值,计算每层的损失值;根据第1至第i层的损失值,调整第i层所述第二编码子模块的参数。进一步,所述将相应训练样本输入至相应文本处理模型中,输出任务目标值,包括:将相应训练样本分别输入至所述第一编码模块和第二编码模块,以利用第一编码模块获取所述训练样本的任务特征向量,利用第二编码模块获取所述训练样本的至少一个共享特征向量,所述共享特征向量为所述训练样本针对任意任务目标的特征表示;将所述共享特征向量和任务特征向量共同输入到融合层进行特征融合,并将融合结果输入至解码层以预测任务目标值。进一步,所述将共享特征向量与任务特征向量共同输入到融合层进行特征融合,包括:根据融合层的注意力参数矩阵和任务特征向量生成权重矩阵;使用所述权重矩阵对所述共享特征向量中每一词汇对应的向量表示进行加权;将每一共享特征向量的加权结果与所述任务特征向量拼接。第二方面,本申请提供一种文本处理方法,应用于本申请第一方面所述方法训练得到的文本处理模型,所述方法包括:利用第一编码模块获取任务文本的任务特征向量;利用第二编码模块获取所述任务文本的至少一个共享特征向量;利用融合模块将所述共享特征向量与所述任务特征向量融合,生成解码模块输入向量;利用解码模块对所述输入向量进行预测,得到任务目标值。第三发面,本申请提供一种文本处理模型的训练装置,应用于多个具有不同任务目标的文本处理模型,所述多个文本处理模型共享部分隐层;所述装置包括:输入单元,用于对于每一任务目标,将相应训练样本输入至相应文本处理模型中,输出任务目标值;损失计算单元,用于根据输出的任务目标值计算预设损失函数的单任务损失值,根据各文本处理模型对应的单任务损失值计算多任务损失值;参数调整单元,用于根据所述多任务损失值,调整每一文本处理模型的参数。由以上技术方案可知,本申请提供一种文本处理模型的训练方法、装置及文本处理方法,所述训练方法应用于多个具有不同任务目标的文本处理模型,所述多个文本处理模型共享部分隐层;所述训练方法中,对于每一任务目标,首先将相应训练样本输入至相应文本处理模型中,输出任务目标值;其次根据输出的任务目标值计算预设损失函数的单任务损失值,根据各文本处理模型对应的单任务损失值计算多任务损失值;最后根据多任务损失值,调整每一文本处理模型的参数。多个文本处理模型同时并行学习,通过共享部分隐层来共享多个任务的浅层特征表示,梯度同时反向传播帮助隐层逃离局部极小值,进而可以提高每个模型的准确性和泛化性。将训练后的文本处理模型用以处理高层任务,可以提高任务结果的准确性。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请文本处理模型的训练方法的一个应用场景示意图;图2为本申请文本处理模型的训练方法一个实施例流程图;图3为本申请一种文本处理模型示意图;图4为第一编码模块10对输入文本的处理流程示意图;图5为第二编码模块20的一种层级结构示意图;图6为第二编码模块的预训练流程示意图;图7为本申请文本处理方法的一个实施例流程图;图8为本申请文本处理模型的训练装置的一个实施例示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。对于高层的自然语言任务,如分类任务、语义相似度任务等,现有本文档来自技高网
...

【技术保护点】
1.一种文本处理模型的训练方法,其特征在于,应用于多个具有不同任务目标的文本处理模型,所述多个文本处理模型共享部分隐层;对于每一任务目标,将相应训练样本输入至相应文本处理模型中,输出任务目标值;根据输出的任务目标值计算预设损失函数的单任务损失值,根据各文本处理模型对应的单任务损失值计算多任务损失值;根据所述多任务损失值,调整每一文本处理模型的参数。

【技术特征摘要】
1.一种文本处理模型的训练方法,其特征在于,应用于多个具有不同任务目标的文本处理模型,所述多个文本处理模型共享部分隐层;对于每一任务目标,将相应训练样本输入至相应文本处理模型中,输出任务目标值;根据输出的任务目标值计算预设损失函数的单任务损失值,根据各文本处理模型对应的单任务损失值计算多任务损失值;根据所述多任务损失值,调整每一文本处理模型的参数。2.根据权利要求1所述的方法,其特征在于,所述根据各文本处理模型对应的单任务损失值计算多任务损失值,包括:根据每一文本处理模型相应的训练样本数量,获取所述文本处理模型的参数调整权重;使用所述参数调整权重对所述单任务损失值加权求和,得到多任务损失值。3.根据权利要求1所述的方法,其特征在于,所述文本处理模型的隐层包括基于预训练Bert模型的第一编码模块、经预训练的第二编码模块和融合模块,所述经预训练的第二编码模块为所述多个文本处理模型共享的所述部分隐层。4.根据权利要求3所述的方法,其特征在于,所述第二编码模块包括串行设置的多个具有不同基础任务目标的第二编码子模块,以使每一所述第二编码子模块获取到输入文本的一种类型的共享特征。5.根据权利要求4所述的方法,其特征在于,所述根据多任务损失值,调整每一文本处理模型的参数,包括:获取每一所述第二编码子模块预设的更新控制系数;根据所述多任务损失值和相应的更新控制系数,调整每一所述第二编码子模块的参数;根据所述多任务损失值,分别调整所述每一文本处理模型中所述第一编码模块、融合模块以及输出层的参数。6.根据权利要求4所述的方法,其特征在于,按照下述步骤,对每一所述第二编码子模块进行预训练:根据每一所述第二编码子模块预定的基础任务目标,获取相应的训练样本集;将第i层第二编码子模块相应的训练样本,由第1层顺次输入至第i层中,第i层输出基础任务目标值,i表示第二编码子模块在自下至上方向...

【专利技术属性】
技术研发人员:李健铨刘小康马力群
申请(专利权)人:安徽省泰岳祥升软件有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1