文本处理模型的训练方法、装置和文本处理方法制造方法及图纸

技术编号：22055296 阅读：32 留言：0更新日期：2019-09-07 15:16

本申请公开了文本处理模型的训练方法、装置及文本处理方法，所述训练方法应用于多个具有不同任务目标的文本处理模型，多个文本处理模型共享部分隐层。所述方法中，对于每一任务目标，首先将相应训练样本输入至相应文本处理模型中，输出任务目标值；其次根据输出的任务目标值计算预设损失函数的单任务损失值，根据各文本处理模型对应的单任务损失值计算多任务损失值；最后根据多任务损失值，调整每一文本处理模型的参数。多个文本处理模型同时并行学习，通过共享部分隐层来共享多个任务的浅层特征表示，梯度同时反向传播帮助隐层逃离局部极小值，可以提高每个模型的准确性和泛化性。将训练后的文本处理模型用以处理高层任务，可以提高结果准确性。

Training Method, Device and Text Processing Method of Text Processing Model

全部详细技术资料下载

【技术实现步骤摘要】
文本处理模型的训练方法、装置和文本处理方法
本申请涉及自然语言处理
，尤其涉及一种文本处理模型的训练方法、装置和文本处理方法。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，它研究如何使计算机既能理解自然语言文本的意义，又能通过自然语言文本来表达给定的意图、思想等，前者称为自然语言理解，后者称为自然语言生成。无论是自然语言理解，还是自然语言生成，其任务诸多，大体可按照任务类型分为词法分析，句子分析，语义分析，信息抽取，高层任务等。其中，由于所有自然语言都具有词法、句法特征，因此对于词法分析，句子分析等任务，无需限定句子领域，故可称为基础任务。而如文本分类、机器翻译、文本摘要、问答系统、对话系统、阅读理解等任务，为直接面向普通用户提供自然语言处理产品服务的系统级任务，并且涉及多个层面的自然语言处理技术，故为高层任务。基础任务亦或是高层任务的目标一般均通过一个基于机器学习的自然语言处理模型实现。模型的输入为自然语言文本数据，模型的输出则为任务目标。利用任务目标相应的大规模标注语料对模型进行训练并朝着训练目标不断优化，即可得到一个可对未知文本处理进而实现上述功能的优化模型。通常，机器学习为解决一个单一问题而针对单一任务目标进行，即单任务训练。然而，不同任务模型的数据集差异巨大，因此任务模型只能在本数据集上获得较好的效果，而对于非本数据集的数据，任务模型需遭受一定的泛化性损失。另外，不同数据集的文本之间天生具有隐式共性，而训练时只注重前述单一任务目标，因此会造成一定的信息丢失。因此，如何提高任务模型的准确性和泛化性，是亟待解决的技术问...

【技术保护点】
1.一种文本处理模型的训练方法，其特征在于，应用于多个具有不同任务目标的文本处理模型，所述多个文本处理模型共享部分隐层；对于每一任务目标，将相应训练样本输入至相应文本处理模型中，输出任务目标值；根据输出的任务目标值计算预设损失函数的单任务损失值，根据各文本处理模型对应的单任务损失值计算多任务损失值；根据所述多任务损失值，调整每一文本处理模型的参数。

【技术特征摘要】
1.一种文本处理模型的训练方法，其特征在于，应用于多个具有不同任务目标的文本处理模型，所述多个文本处理模型共享部分隐层；对于每一任务目标，将相应训练样本输入至相应文本处理模型中，输出任务目标值；根据输出的任务目标值计算预设损失函数的单任务损失值，根据各文本处理模型对应的单任务损失值计算多任务损失值；根据所述多任务损失值，调整每一文本处理模型的参数。2.根据权利要求1所述的方法，其特征在于，所述根据各文本处理模型对应的单任务损失值计算多任务损失值，包括：根据每一文本处理模型相应的训练样本数量，获取所述文本处理模型的参数调整权重；使用所述参数调整权重对所述单任务损失值加权求和，得到多任务损失值。3.根据权利要求1所述的方法，其特征在于，所述文本处理模型的隐层包括基于预训练Bert模型的第一编码模块、经预训练的第二编码模块和融合模块，所述经预训练的第二编码模块为所述多个文本处理模型共享的所述部分隐层。4.根据权利要求3所述的方法，其特征在于，所述第二编码模块包括串行设置的多个具有不同基础任务目标的第二编码子模块，以使每一所述第二编码子模块获取到输入文本的一种类型的共享特征。5.根据权利要求4所述的方法，其特征在于，所述根据多任务损失值，调整每一文本处理模型的参数，包括：获取每一所述第二编码子模块预设的更新控制系数；根据所述多任务损失值和相应的更新控制系数，调整每一所述第二编码子模块的参数；根据所述多任务损失值，分别调整所述每一文本处理模型中所述第一编码模块、融合模块以及输出层的参数。6.根据权利要求4所述的方法，其特征在于，按照下述步骤，对每一所述第二编码子模块进行预训练：根据每一所述第二编码子模块预定的基础任务目标，获取相应的训练样本集；将第i层第二编码子模块相应的训练样本，由第1层顺次输入至第i层中，第i层输出基础任务目标值，i表示第二编码子模块在自下至上方向...

【专利技术属性】
技术研发人员：李健铨，刘小康，马力群，
申请(专利权)人：安徽省泰岳祥升软件有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人