当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于使用二元张量和缩放因子对来增强神经网络的方法和装置制造方法及图纸

技术编号:22978643 阅读:13 留言:0更新日期:2020-01-01 00:52
公开了用于使用二元张量和缩放因子对来增强神经网络的方法和装置。例如,一种优化经训练的卷积神经网络(CNN)的方法包括将近似残差初始化为用于经训练的CNN的经训练的权重张量。确定多个二元张量和缩放因子对。使用二元张量和缩放因子对来更新近似残差。

Methods and devices for enhancing neural networks using binary tensor and scaling factor pairs

【技术实现步骤摘要】
【国外来华专利技术】用于使用二元张量和缩放因子对来增强神经网络的方法和装置优先权本申请要求享有于2017年5月23日提交的题为“METHODSANDAPPARATUSFORENHANCINGANEURALNETWORKUSINGBINARYTENSORANDSCALEFACTORPAIRS”的美国临时专利申请第62/510,025号的优先权和权益,该申请通过引用合并于此并共同转让。
实施例总体上涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。特别地,实施例涉及用于使用二元张量和缩放因子对来增强神经网络的系统和方法。
技术介绍
当前的并行图形数据处理包括开发用于对图形数据执行诸如线性插值、曲面细分、光栅化、纹理映射、深度测试等之类的特定操作的系统和方法。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的部分已经变得可编程,使得这些处理器能够支持更多种操作来处理顶点和片段数据。为了进一步提高性能,图形处理器典型地实现诸如流水线化之类的处理技术,流水线化尝试在图形流水线的不同部分中并行地处理尽可能多的图形数据。具有单指令、多线程(SIMT)架构的并行图形处理器被设计用于使图形流水线中的并行处理量最大化。在SIMT架构中,并行线程组尝试尽可能频繁地同步地一起执行程序指令,以提高处理效率。可以在ShaneCook的CUDAProgramming第3章第37-51页(2013)中找到对SIMT架构的软件和硬件的总体概述。机器学习已经在解决多种任务方面取得了成功。在训练和使用机器学习算法(例如,神经网络)时出现的计算自然地适用于高效的并行实现方式。因此,诸如通用图形处理单元(GPGPU)之类的并行处理器在深度神经网络的实际实现方式中已经扮演了重要角色。具有单指令多线程(SIMT)架构的并行图形处理器被设计为使图形流水线中的并行处理量最大化。在SIMT架构中,并行线程组尝试尽可能频繁地一起同步地执行程序指令,以提高处理效率。并行机器学习算法实现方式提供的效率允许使用高容量网络并且使得这些网络能够在更大的数据集上进行训练。深度学习神经网络(DNN)典型地被构造为一种卷积神经网络,并用于执行复杂的关联任务。在使用已知输入的训练阶段之后,DNN能够识别与原始训练输入相似的新输入。这对于对象检测技术、自动语音识别、用户认证、图像理解和机器视觉使用等很有帮助。视频序列可以用于对象跟踪以及用于识别。附图说明附图示出了示例,因此是示例性实施例,并且不被认为对范围进行限制。图1是示出被配置为实现本文描述的示例性实施例的一个或多个方面的计算机系统的框图。图2A-2D示出了根据示例性实施例的并行处理器组件。图3A-3B是根据示例性实施例的图形多处理器的框图。图4A-4F示出了其中多个图形处理单元(GPU)通信地耦合到多个多核心处理器的示例性架构。图5示出了根据示例性实施例的图形处理流水线。图6示出了根据示例性实施例的机器学习软件栈。图7示出了根据示例性实施例的高度并行的通用图形处理单元。图8示出了根据示例性实施例的多GPU计算系统。图9A-9B示出了示例性深度神经网络的层。图10示出了示例性递归神经网络。图11示出了对深度神经网络的训练和部署的示例性实施例。图12是示出分布式学习的示例性框图。图13示出了适用于使用经训练的模型来执行推断的示例性推断片上系统(SOC)。图14是将RGB和CNN通道数据存储为深度通道图像的一部分的示例性图,是使用卷积神经网络(CNN)存储深度通道图像的图像捕获系统的示例性框图。图15是根据示例性实施例的通过利用二元结构来对网络模型进行草绘(sketch)的概略图。图16是根据示例性实施例的利用缩放的二元张量的和来对实值权重张量进行近似的图。图17是根据示例性实施例的在二元张量卷积的直接实现方式中的重复浮点加法和减法的图。图18A是根据示例性实施例的提供关联卷积的次序的相关性树的图。图18B是根据示例性实施例的二元张量卷积的关联实现方式的图。图18C是根据示例性实施例的针对通过层的操作序列的所要求的存储器的累积能量的图形序列。图19示出了根据示例性实施例的处理系统的框图。图20示出了具有一个或多个处理器核心、集成存储器控制器和集成图形处理器的处理器的实施例的示例性框图。图21示出了图形处理器的示例性框图。图22示出了根据示例性实施例的图形处理器的图形处理引擎的框图。图23示出了图形处理器的另一示例性实施例的框图。图24示出了线程执行逻辑,其包括在图形处理引擎(GPE)的示例性实施例中采用的处理元件阵列。图25示出了根据示例性实施例的图形处理器指令格式的框图。图26示出了图形处理器的示例性实施例的框图。图27A示出了根据示例性实施例的图形处理器命令格式的框图。图27B示出了根据示例性实施例的图形处理器命令序列的框图。图28示出了根据示例性实施例的数据处理系统的示例性图形软件架构。图29示出了根据示例性实施例的可以用于制造集成电路(IC)以执行操作的IP核心开发系统的框图。图30示出了根据示例性实施例的可以使用一个或多个IP核心制造的示例性片上系统IC的框图。图31示出了根据示例性实施例的可以使用一个或多个IP核心制造的片上系统IC上的示例性图形处理器的框图。图32示出了根据示例性实施例的可以使用一个或多个IP核心制造的片上系统IC的示例性附加图形处理器的框图。具体实施方式在一些实施例中,图形处理单元(GPU)通信地耦合到主机/处理器核心以加速图形操作、机器学习操作、模式分析操作和各种通用GPU(GPGPU)功能。GPU可以通过总线或另一互连(例如,诸如PCIe或NVLink之类的高速互连)通信地耦合到主机处理器/核心。在其他实施例中,GPU可以集成在与核心相同的封装或芯片上,并且通过内部处理器总线/互连(即,在封装或芯片内部)通信地耦合到核心。无论GPU连接的方式如何,处理器核心都可以以包含在工作描述符中的命令/指令序列的形式将工作分配给GPU。然后,GPU使用专用电路/逻辑来高效地处理这些命令/指令。在一些实施例中,图像捕获设备是独立设备。然而,图像捕获设备可以是要求图像捕获能力的另一计算设备的一部分或子组件,例如,具有用于捕获图像的数码相机的便携式或手持式计算设备。在以下描述中,阐述了许多具体细节以提供更透彻的理解。然而,显而易见的是,可以在没有这些具体细节中的一个或多个的情况下实践本文描述的实施例。在其他实例中,没有描述公知的特征以避免模糊示例性实施例的细节。计算系统概述图1是示出被配置为实现本文描述的示例性实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101,处理子系统101具有一个或多个本文档来自技高网...

【技术保护点】
1.一种优化经训练的卷积神经网络(CNN)的方法,包括:/n将近似残差初始化为用于所述经训练的CNN的经训练的权重张量;/n确定多个二元张量和缩放因子对;以及/n使用所述二元张量和缩放因子对来更新所述近似残差。/n

【技术特征摘要】
【国外来华专利技术】20170523 US 62/510,0251.一种优化经训练的卷积神经网络(CNN)的方法,包括:
将近似残差初始化为用于所述经训练的CNN的经训练的权重张量;
确定多个二元张量和缩放因子对;以及
使用所述二元张量和缩放因子对来更新所述近似残差。


2.根据权利要求1所述的方法,还包括:
迭代地确定附加的二元张量和缩放因子对并且使用所述附加的二元张量和缩放因子对来更新所述近似残差。


3.根据权利要求1所述的方法,其中,迭代地确定附加的二元张量和缩放因子对并且使用所述附加的二元张量和缩放因子对来更新所述近似残差被重复,以找到最大网络效率。


4.根据权利要求1所述的方法,还包括:
通过确定二元张量的基数和一系列缩放因子来对所述经训练的CNN的经训练的滤波器进行近似。


5.根据权利要求4所述的方法,其中,确定所述二元张量的基数和所述一系列缩放因子包括确定多个二元近似,其中,每个近似是不同的二元张量的组合,并且每个二元张量是与缩放因子配对的。


6.根据权利要求1所述的方法,其中,确定所述多个二元张量和缩放因子对包括:
通过将第一二元张量和缩放因子选择为最优值,并且针对多个附加选择中的每一个选择使用先前选择的最优值直到所有所述经训练的滤波器被近似,来启发式地学习二元张量和缩放因子。


7.根据权利要求6所述的方法,其中,每个二元张量表示相应的近似残差的符号,并且每个缩放因子表示对应的平均幅度。


8.根据权利要求6所述的方法,其中,每个二元张量表示相应的近似残差的符号,并且每个缩放因子是使用所有二元张量的最小二乘回归来细化的。


9.根据权利要求1所述的方法,其中,所述经训练的权重张量包括浮点权重张量。


10.根据权利要求1所述的方法,其中,所述二元张量和缩放因子对包括二元结构。


11.根据权利要求10所述的方法,还包括:
直接在根据CNN模型的预训练的滤波器中使用所述二元结构,以经由张量展开产生二元权重模型。


12.根据权利要求1所述的方法,还包括:
在对所述近似残差进行初始化之前,利用特定二元基数的线性跨度对所述预训练的滤波器进行近似。


13.根据权利要求1所述的方法,还包括:
对相同的二元张量进行分组以追求最大的网络效率。


14.一种包括指令的机器可读介质,所述指令在由所述机器操作时使所述机器执行权利要求1至13所述的方法中的任何一个或多个。


15.一种装置,包括:
存储器,其用于存储输入初始结果、中间结果和最终结果;
神经网络;以及
处理器,其用于引起、优化或配置所述神经网络来执行权利要求1至13所述的方法中的任何一个或多个。


16.一种装置,包括:
存储...

【专利技术属性】
技术研发人员:郭怡文姚安邦赵昊陆鸣陈玉荣
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1