基于多任务的级联组合模型的优化方法、装置及终端设备制造方法及图纸

技术编号：24709388 阅读：74 留言：0更新日期：2020-07-01 00:10

本发明专利技术适用于人工智能机器学习技术领域，提供了一种基于多任务的级联组合模型的优化方法、装置及终端设备，方法包括：将训练数据输入级联组合模型的浅层网络模型进行合并训练获取第一输出结果；将第一输出结果输入级联组合模型的深层网络模型进行并行训练获取第二输出结果；将第二输出结果输入级联组合模型的顶层网络模型进行并行训练获取第三输出结果；根据预设损失函数对第一输出结果、第二输出结果、第三输出结果进行叠加获取叠加结果；将叠加结果进行反向传播，以使浅层网络模型、深层网络模型和顶层网络模型的参数收敛，获取优化的多任务级联组合模型。本发明专利技术占用内存小，使用时间短，对任务的分类准确度高，提高了任务实现的效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于多任务的级联组合模型的优化方法、装置及终端设备
本专利技术属于人工智能机器学习
，尤其涉及一种基于多任务的级联组合模型的优化方法、装置及终端设备。
技术介绍
目前人工智能技术已经被很多行业普遍接受，而基于神经网络训练的人工智能技术也深入更复杂、更多元化的项目之中。目前，针对多任务的神经网络模型的设计方案，一般有如下2种方案：1.针对每个任务训练一个不同的模型。2.通过一个很大很深的网络，加入足够的卷积核以尽可能提取所有需要的特征，再通过不同的分类层实现对各种任务进行最后的分类。其中，第一种方案导致项目中具有很多网络模型。每个网络模型都有很多参数，并且需要进行独立训练，即没有有效的利用其他网络计算出来的特征参数。整个项目实施起来占用内存大和单帧图像耗费时间长，因此限制了项目往移动端、计算力比较低端或者存储资源比较紧张的设备上移植的可能性。第二种方案会使很多不需要的特征也参与到网络分类层，使得对某些任务具有帮助的特征对进行其他任务的分类操作时增加了大量的噪声，降低了对任务分类的准

【技术保护点】
1.一种基于多任务的级联组合模型的优化方法，其特征在于，包括：/n将训练数据输入所述级联组合模型的浅层网络模型进行合并训练，以获取第一输出结果；/n将所述第一输出结果输入所述级联组合模型的深层网络模型进行并行训练，以获取第二输出结果；/n将所述第二输出结果输入所述级联组合模型的顶层网络模型进行并行训练，以获取第三输出结果；/n根据预设损失函数对所述第一输出结果、所述第二输出结果、所述第三输出结果进行叠加，以获取叠加结果；/n根据误差反向传播算法将所述叠加结果进行反向传播，以使所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数收敛，获取优化后的多任务级联组合模型。/n

【技术特征摘要】
1.一种基于多任务的级联组合模型的优化方法，其特征在于，包括：
将训练数据输入所述级联组合模型的浅层网络模型进行合并训练，以获取第一输出结果；
将所述第一输出结果输入所述级联组合模型的深层网络模型进行并行训练，以获取第二输出结果；
将所述第二输出结果输入所述级联组合模型的顶层网络模型进行并行训练，以获取第三输出结果；
根据预设损失函数对所述第一输出结果、所述第二输出结果、所述第三输出结果进行叠加，以获取叠加结果；
根据误差反向传播算法将所述叠加结果进行反向传播，以使所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数收敛，获取优化后的多任务级联组合模型。

2.如权利要求1所述的基于多任务的级联组合模型的优化方法，其特征在于，还包括：
获取训练数据集，识别所述训练数据集中的识别目标并添加标签；
获取预训练网络模型，并提取所述预训练网络模型的浅层网络模型；
将所述训练数据集中的数据输入所述浅层网络模型，获取浅层网络输出结果；
将所述浅层网络输出结果输入所述预训练网络模型的深层网络模型，以获取深层网络输出结果；
将所述深层网络输出结果输入所述预训练网络模型的顶层网络模型，以获取顶层网络输出结果；
通过预设损失函数对所述浅层网络输出结果、所述深层网络输出结果和所述顶层网络输出结果进行处理，获取所述浅层网络模型、所述深层网络模型和所述顶层网络模型的判决概率值；
将所述浅层网络模型的判决概率值、所述深层网络模型的判决概率值和所述顶层网络模型的判决概率值与其对应的标签相减，获取对应的所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值；
将所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第一叠加误差值；
通过预设优化算法对所述第一叠加误差值进行优化，以获取梯度值；
根据所述梯度值更新所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数，使所述多任务级联组合模型收敛，获取所述优化后的多任务级联组合模型。

3.如权利要求2所述的基于多任务的级联组合模型的优化方法，其特征在于，将所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第一叠加误差值之后，还包括：
获取所述预训练网络模型的底层网络模型，将所述训练数据输入所述底层网络模型，以获取底层网络输出结果；
通过均方误差算法将所述底层网络输出结果进行处理，以获取底层网络模型的误差值；
通过归一化误差函数将所述底层网络模型的误差值进行归一化，并与所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第二叠加误差值；
通过预设优化算法对所述第二叠加误差值进行优化，以获取所述梯度值；
根据所述梯度值更新所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数，使所述多任务级联组合模型收敛，获取所述优化后的多任务级联组合模型。

4.如权利要求2所述的基于多任务的级联组合模型的优化方法，其特征在于，所述预设优化算法包括随机梯度下降算法和Adam优化算法中的至少一种。

5.如权利要求1所述的基于多任务的级联组合模型的优化方法，其特征在于，所述顶层网络模型为全连接层神经网络模型或全卷积层神经网络模型。

6.一种基于多任务的级联组合模型的优化装置，其特征在于，包括：
第一获取模块，用于将训练数据输入所述级联组合模型的浅层网络模型进...

【专利技术属性】
技术研发人员：蒋佳，
申请(专利权)人：TCL集团股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人