模型训练方法及装置制造方法及图纸

技术编号：27934594 阅读：14 留言：0更新日期：2021-04-02 14:14

公开了一种模型训练方法及装置。该方法应包括利用共享层中包括的训练数据对多个任务模型的通用参数进行训练，将训练后的任务模型分别输出到对应的任务层中；根据所述训练数据对应的任务标识，将所述多个任务模型中的目标任务模型对应的目标训练数据提取到所述目标任务模型对应的任务层中；利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练，输出训练后得到的目标任务模型。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法及装置
本申请涉及自然语言处理
，尤其涉及一种模型训练方法及装置。
技术介绍
在现有技术中，自然语言理解(NatureLanguageUnderstanding，NLU)模型采用多个互相独立的任务模型来对应不同的任务。随着深度学习的发展，更好效果的任务模型通常会变得更宽和更深，更宽和更深的任务模型会承载几何倍数增长的参数量，巨大的参数量会占用庞大的内存。而多个任务对应的任务模型互相独立意味着在生产环境中需要服务起更多数量的任务模型，这带来的后果是运行成本的巨大提升。尤其在嵌入式设备上，受硬件性能的限制，多任务互相独立的任务模型几乎不可能运行起来。
技术实现思路
为解决上述问题，本专利技术提供一种模型训练方法及装置，有效减少多个任务模型的总体参数量，从而减少多个任务模型参数所占用的内存空间，以及降低多个任务模型的运行成本。为了实现上述目的，在第一方面，本专利技术实施例提供了一种模型训练方法，该方法包括：利用共享层中包括的训练数据对多个任务模型的通用参数进行训练，将训练后的任务模型分别输出到对应的任务层中；根据所述训练数据对应的任务标识，将所述多个任务模型中的目标任务模型对应的目标训练数据提取到所述目标任务模型对应的任务层中；利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练，输出训练后得到的目标任务模型。优选的，所述利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练，...

【技术保护点】
1.一种模型训练方法，其特征在于，所述方法包括：/n利用共享层中包括的训练数据对多个任务模型的通用参数进行训练，将训练后的任务模型分别输出到对应的任务层中；/n根据所述训练数据对应的任务标识，将所述多个任务模型中的目标任务模型对应的目标训练数据提取到所述目标任务模型对应的任务层中；/n利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练，输出训练后得到的目标任务模型。/n

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：
利用共享层中包括的训练数据对多个任务模型的通用参数进行训练，将训练后的任务模型分别输出到对应的任务层中；
根据所述训练数据对应的任务标识，将所述多个任务模型中的目标任务模型对应的目标训练数据提取到所述目标任务模型对应的任务层中；
利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练，输出训练后得到的目标任务模型。

2.根据权利要求1所述的方法，其特征在于，所述利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练，输出训练后得到的目标任务模型，包括：
利用所述目标任务模型对应的任务层中包括的目标训练数据对所述目标任务模型的特定参数进行训练，并利用预设的所述目标任务模型对应的损失函数调整所述目标任务模型的通用参数和特定参数，输出调整后得到的目标任务模型。

3.根据权利要求1所述的方法，其特征在于，所述多个任务模型包括：领域分类模型、意图分类模型、语义槽填充模型、垃圾请求分类模型。

4.根据权利要求1所述的方法，其特征在于，所述多个任务模型分别对应的任务层相互独立。

5.根据权利要求1所述的方法，其特征在于，所述共享层或任务层的网络结构，包括：变形transformer模型，循环神经网络RNN，卷积神经网络CNN或全连接神经网络。

6.一种模型训练装置，其特征在于，所述装置包括：
第一训练单元，用于利用共享层中包括的训练数据对多个任务模型的通用参数进行训练，将训练后的任务模型分...

【专利技术属性】
技术研发人员：齐乔松，孟振南，雷欣，李志飞，
申请(专利权)人：出门问问武汉信息科技有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人