信息处理装置和信息处理方法制造方法及图纸

技术编号：29287803 阅读：15 留言：0更新日期：2021-07-17 00:07

本公开内容涉及信息处理装置和信息处理方法。根据本公开的信息处理装置包括：生成单元，被配置成基于教师神经网络模型生成多个候选学生神经网络模型；训练单元，被配置成通过注意力传输处理基于教师神经网络模型对多个候选学生神经网络模型进行训练；以及选择单元，被配置成基于预定标准从经训练的多个候选学生神经网络模型中选择学生神经网络模型。根据本公开的信息处理装置和信息处理方法能够自动地对规模较大的教师神经网络模型进行压缩以获得规模较小的学生神经网络模型，该学生神经网络模型的性能接近教师神经网络模型但是处理速度更快。是处理速度更快。是处理速度更快。

全部详细技术资料下载

【技术实现步骤摘要】
信息处理装置和信息处理方法

[0001]本文公开的实施方式涉及信息处理的
特别地，本公开内容的实施方式涉及用于对卷积神经网络模型进行压缩的信息处理装置和信息处理方法。

技术介绍

[0002]目前，卷积神经网络(CNN)模型已被广泛应用于图像和语音处理领域。越来越多的CNN模型结构被设计出来并且具有优秀的性能，例如VGG网络，ResNet网络和Inception结构。然而，由于这些CNN模型的规模变得越来越大，因此在被实际部署和应用时受到硬件成本和计算代价的限制。
[0003]为了解决上述问题，已提出了若干对CNN模型进行压缩以在不显著降低性能的同时减小其规模的方法。现有的CNN模型压缩方法通常对大规模的教师神经网络模型的参数进行人工调节来获得规模较小的具有类似性能的学生神经网络模型。然而，教师神经网络模型的参数调节需要大量的专业知识并且耗费大量的时间。
[0004]因此，有必要提供一种信息处理技术，能够自动地对规模较大的教师神经网络模型进行压缩以获得性能类似于教师神经网络模型但是规模较小的学生神经网络模型。

技术实现思路

[0005]在下文中将给出关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。
[0006]本公开内容的目的在于一种对卷积神经网络模型...

【技术保护点】

【技术特征摘要】
1.一种信息处理装置，包括：生成单元，被配置成基于教师神经网络模型生成多个候选学生神经网络模型；训练单元，被配置成通过注意力传输处理基于所述教师神经网络模型对所述多个候选学生神经网络模型进行训练；以及选择单元，被配置成基于预定标准从经训练的所述多个候选学生神经网络模型中选择学生神经网络模型。2.根据权利要求1所述的信息处理装置，其中，所述生成单元被配置成：通过策略网络对所述教师神经网络模型采样压缩率；以及根据所述压缩率对所述教师神经网络模型进行剪枝。3.根据权利要求2所述的信息处理装置，其中，所述策略网络通过循环神经网络实现。4.根据权利要求2所述的信息处理装置，其中，所述生成单元被配置成根据所述压缩率基于卷积核的范数对所述教师神经网络模型进行剪枝。5.根据权利要求1所述的信息处理装置，其中，所述训练单元被配置成：基于第一提取方法提取所述候选学生神经网络模型的第一注意力图；基于第二提取方法提取所述教师神经网络模型的第二注意力图；以及通过注意力传输处理...

【专利技术属性】
技术研发人员：张雪，汪留安，孙俊，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人