模型训练方法及装置制造方法及图纸

技术编号:27934594 阅读:14 留言:0更新日期:2021-04-02 14:14
公开了一种模型训练方法及装置。该方法应包括利用共享层中包括的训练数据对多个任务模型的通用参数进行训练,将训练后的任务模型分别输出到对应的任务层中;根据所述训练数据对应的任务标识,将所述多个任务模型中的目标任务模型对应的目标训练数据提取到所述目标任务模型对应的任务层中;利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练,输出训练后得到的目标任务模型。

【技术实现步骤摘要】
模型训练方法及装置
本申请涉及自然语言处理
,尤其涉及一种模型训练方法及装置。
技术介绍
在现有技术中,自然语言理解(NatureLanguageUnderstanding,NLU)模型采用多个互相独立的任务模型来对应不同的任务。随着深度学习的发展,更好效果的任务模型通常会变得更宽和更深,更宽和更深的任务模型会承载几何倍数增长的参数量,巨大的参数量会占用庞大的内存。而多个任务对应的任务模型互相独立意味着在生产环境中需要服务起更多数量的任务模型,这带来的后果是运行成本的巨大提升。尤其在嵌入式设备上,受硬件性能的限制,多任务互相独立的任务模型几乎不可能运行起来。
技术实现思路
为解决上述问题,本专利技术提供一种模型训练方法及装置,有效减少多个任务模型的总体参数量,从而减少多个任务模型参数所占用的内存空间,以及降低多个任务模型的运行成本。为了实现上述目的,在第一方面,本专利技术实施例提供了一种模型训练方法,该方法包括:利用共享层中包括的训练数据对多个任务模型的通用参数进行训练,将训练后的任务模型分别输出到对应的任务层中;根据所述训练数据对应的任务标识,将所述多个任务模型中的目标任务模型对应的目标训练数据提取到所述目标任务模型对应的任务层中;利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练,输出训练后得到的目标任务模型。优选的,所述利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练,输出训练后得到的目标任务模型,包括:利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练,并利用预设的所述目标任务模型对应的损失函数调整所述目标任务模型的通用参数和特定参数,输出调整后得到的目标任务模型。优选的,所述多个任务模型包括:领域分类模型、意图分类模型、语义槽填充模型、垃圾请求分类模型。优选的,所述多个任务模型分别对应的任务层相互独立。优选的,所述共享层或任务层的网络结构,包括:变形transformer模型,循环神经网络RNN,卷积神经网络CNN或全连接神经网络。在第二方面,本专利技术实施例提供了一种模型训练装置,该装置包括:第一训练单元,用于利用共享层中包括的训练数据对多个任务模型的通用参数进行训练,将训练后的任务模型分别输出到对应的任务层中;提取单元,用于根据所述训练数据对应的任务标识,将所述多个任务模型中的目标任务模型对应的目标训练数据提取到所述目标任务模型对应的任务层中;第二训练单元,用于利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练,输出训练后得到的目标任务模型。优选的,所述第二训练单元具体用于:利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练,并利用预设的所述目标任务模型对应的损失函数调整所述目标任务模型的通用参数和特定参数,输出调整后得到的目标任务模型。优选的,所述多个任务模型包括:领域分类模型、意图分类模型、语义槽填充模型、垃圾请求分类模型。优选的,所述多个任务模型分别对应的任务层相互独立。优选的,所述共享层或任务层的网络结构,包括:变形transformer模型,循环神经网络RNN,卷积神经网络CNN或全连接神经网络。在第三方面,本专利技术实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面所述的模型训练方法。在第四方面,本专利技术实施例提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面所述的模型训练方法。利用本专利技术提供的模型训练方法及装置,通过将任务模型分为共享层和任务层,将多个任务模型的通用参数在一个共享层中利用共享层中的训练数据进行训练,然后根据训练数据对应的任务标识,将不同任务模型对应的训练数据提取到相应的任务层中,并在任务层中针对不同任务的特点训练任务模型的特定参数。这样,既能保证任务模型的准确性,并且由于多个任务模型的通用参数可以共享,不需要分别训练,因此也可以有效减少多个任务模型的总体参数量,从而减少多个任务模型参数所占用的内存空间,以及降低多个任务模型的运行成本。附图说明通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1为本申请示例性实施例提供的一种模型训练方法的流程示意图;图2为本申请示例性实施例提供的一种模型训练装置的结构图;图3为本申请示例性实施例提供的电子设备的结构图。具体实施方式下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。图1为本申请实施例示出的一种模型训练方法的流程示意图。该模型训练方法可应用于电子设备,如图1所示,该方法包括:步骤101,利用共享层中包括的训练数据对多个任务模型的通用参数进行训练,将训练后的任务模型分别输出到对应的任务层中。具体的,由于相关的多个任务之间存在共性,那么相关的多个任务对应的任务模型会拥有可共用的参数(本实施例中称为通用参数),训练这些任务模型的通用参数所使用的训练数据通常是相同的。基于此,可以设置一多个任务模型可共用的共享层用于训练通用参数。在一个例子中,相关的多个任务可以是多个相关的NLU任务,包括:领域分类(Domainclassification),意图分类(Intentclassification),语义槽填充(Slotfilling),垃圾请求分类(Notaqueryclassification)。具体的,领域分类主要是将输入的文本请求在既定的互不相关的领域上进行分类,如文本“今天的天气怎样”对应的是领域“天气”。意图分类:主要是将输入的文本请求在某一领域上的既定的互不相关的意图上进行分类,如文本“今天的天气怎样”对应的是“天气”领域下的意图“查询”。语义槽填充:主要是将输入的文本请求在某一领域上的既定的待选slot范围内进行slot抽取和填充,如文本“今天的天气怎样”对应的是“天气”领域下的slot“时间:今天”。垃圾请求分类主要判断输入的文本是否位有效请求,如,文本“今天的天气怎样”对应的是真(True);文本“我无我顾”等不明所以的请求对应的是假(False)。相应的,本例中的多个任务模型可以包括:领域分类模型、意图分类模型、语义槽填充模型、垃圾请求分类模型。在一个例子中,共享层的网络结构,可以包括:变形t本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:/n利用共享层中包括的训练数据对多个任务模型的通用参数进行训练,将训练后的任务模型分别输出到对应的任务层中;/n根据所述训练数据对应的任务标识,将所述多个任务模型中的目标任务模型对应的目标训练数据提取到所述目标任务模型对应的任务层中;/n利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练,输出训练后得到的目标任务模型。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
利用共享层中包括的训练数据对多个任务模型的通用参数进行训练,将训练后的任务模型分别输出到对应的任务层中;
根据所述训练数据对应的任务标识,将所述多个任务模型中的目标任务模型对应的目标训练数据提取到所述目标任务模型对应的任务层中;
利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练,输出训练后得到的目标任务模型。


2.根据权利要求1所述的方法,其特征在于,所述利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练,输出训练后得到的目标任务模型,包括:
利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练,并利用预设的所述目标任务模型对应的损失函数调整所述目标任务模型的通用参数和特定参数,输出调整后得到的目标任务模型。


3.根据权利要求1所述的方法,其特征在于,所述多个任务模型包括:领域分类模型、意图分类模型、语义槽填充模型、垃圾请求分类模型。


4.根据权利要求1所述的方法,其特征在于,所述多个任务模型分别对应的任务层相互独立。


5.根据权利要求1所述的方法,其特征在于,所述共享层或任务层的网络结构,包括:变形transformer模型,循环神经网络RNN,卷积神经网络CNN或全连接神经网络。


6.一种模型训练装置,其特征在于,所述装置包括:
第一训练单元,用于利用共享层中包括的训练数据对多个任务模型的通用参数进行训练,将训练后的任务模型分...

【专利技术属性】
技术研发人员:齐乔松孟振南雷欣李志飞
申请(专利权)人:出门问问武汉信息科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1