用于知识蒸馏的信任区域感知神经网络架构搜索制造技术

技术编号:42071848 阅读:23 留言:0更新日期:2024-07-19 16:53
一种搜索神经网络架构的处理器实现的方法包括定义用于知识蒸馏的学生神经网络架构的搜索空间。该搜索空间包括多个卷积算子和多个变换器算子。进行信任区域贝叶斯优化以基于预定义的教师模型从该搜索空间选择学生神经网络架构。

【技术实现步骤摘要】
【国外来华专利技术】

本公开的各方面大体上涉及神经网络知识蒸馏,并且更具体地涉及用于知识蒸馏的样本高效信任区域感知神经网络架构搜索。


技术介绍

1、人工神经网络可以包括互连的人工神经元组(例如,神经元模型)。人工神经网络可以是计算设备或表示为要由计算设备进行的方法。卷积神经网络是一种前馈人工神经网络。卷积神经网络可以包括神经元集合,其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(cnn)(诸如深度卷积神经网络(dcn))具有众多应用。具体地,这些神经网络架构被用于各种技术,诸如图像识别、语音识别、声学场景分类、关键字检测、自动驾驶和其他分类任务。

2、大型神经网络通常提供良好的结果,但它们在计算上可能为昂贵的。可以将知识从大型神经网络蒸馏到较小的神经网络,其目的为利用较少的计算资源来实现相同的结果。大型神经网络可以被称为教师神经网络,并且较小的神经网络可以被称为学生神经网络。用于搜索并选择最好学生神经网络架构的模型尽管具有非凡的性能,但在计算上要求高。许多研究者通过以可区分方式制定任务或采用权重共享技术来解决架构搜索的可缩放性问题。然而,可区分方法可本文档来自技高网...

【技术保护点】

1.一种处理器实现的方法,所述处理器实现的方法包括:

2.根据权利要求1所述的处理器实现的方法,其中进行所述信任区域贝叶斯优化包括进行具有多个竞争目标的多个同时局部优化。

3.根据权利要求2所述的处理器实现的方法,其中所述多个竞争目标包括模型准确度、参数的数量、每秒运算和时延中的一者或多者。

4.根据权利要求1所述的处理器实现的方法,其中所述搜索空间将所述卷积算子分配给视觉处理并且将所述变换器算子分配给表示学习。

5.根据权利要求1所述的处理器实现的方法,所述处理器实现的方法还包括对逐点卷积运算的核正交性进行正则化。p>

6.根据权...

【技术特征摘要】
【国外来华专利技术】

1.一种处理器实现的方法,所述处理器实现的方法包括:

2.根据权利要求1所述的处理器实现的方法,其中进行所述信任区域贝叶斯优化包括进行具有多个竞争目标的多个同时局部优化。

3.根据权利要求2所述的处理器实现的方法,其中所述多个竞争目标包括模型准确度、参数的数量、每秒运算和时延中的一者或多者。

4.根据权利要求1所述的处理器实现的方法,其中所述搜索空间将所述卷积算子分配给视觉处理并且将所述变换器算子分配给表示学习。

5.根据权利要求1所述的处理器实现的方法,所述处理器实现的方法还包括对逐点卷积运算的核正交性进行正则化。

6.根据权利要求1所述的处理器实现的方法,所述处理器实现的方法还包括对所述变换器算子中的前馈网络层的核正交性进行正则化。

7.一种用于搜索神经网络架构的装置,所述装置包括:

8.根据权利要求7所述的装置,其中所述至少一个处理器还被配置为通过进行具有多个竞争目标的多个同时局部优化来进行所述信任区域贝叶斯优化。

9.根据权利要求8所述的装置,其中所述多个竞争目标包括模型准确度、参数的数量、每秒运算和时延中的一者或多者。

10.根据权利要求7所述的装置,其中所述搜索空间将所述卷积算子分配给视觉处理并且将所述变换器算子分配给表示学习。

11.根据权利要求7所述的装置,其中所述至少一个处理器还被配置为对逐点卷积运算的核正交性进行正则化。

12.根据权利要求7所述的装置,其中所述至少一个处理器还被配置为对所述变换器算子中的前馈网络层的核正交性进行正则化。

13.一种其上记录有程序代码的非暂态计算机可读介质,...

【专利技术属性】
技术研发人员:T·金H·明
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1