System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 对不同大小的输入有效地执行全卷积网络的推理计算制造技术_技高网

对不同大小的输入有效地执行全卷积网络的推理计算制造技术

技术编号:42677006 阅读:9 留言:0更新日期:2024-09-10 12:28
公开了用于执行接收不同大小的输入的全卷积神经网络的推理计算的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。所述方法中的一种包括:接收将由全卷积神经网络处理的新输入,所述新输入具有第一大小,所述第一大小不同于所述全卷积神经网络被配置为处理的固定大小;根据所述新输入确定一个或多个固定大小的输入,每个固定大小的输入具有所述固定大小;获得由所述全卷积神经网络对所述一个或多个固定大小的输入中的每一个执行推理计算而生成的相应固定大小的输出;并且从包括一个或多个无效像素值的所述相应固定大小的输出生成最终输出,所述最终输出相当于将使用所述全卷积神经网络处理所述新输入生成的输出。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、本说明书涉及神经网络。具体来说,本说明书涉及有效地执行接收不同大小的输入的全卷积网络的推理计算。

2、神经网络是采用一层或多层非线性单元来预测所接收的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中的下一层的输入,即用作下一隐藏层或输出层的输入。网络的每一层根据相应的一组网络参数的当前值从所接收的输入生成输出。

3、全卷积网络是一种神经网络,所述神经网络仅包括卷积神经网络层以及可选地仅由只在局部输入区域上操作的组件构成的其他层,例如池化层和逐元素层,例如应用逐元素非线性激活函数的层。具体来说,与其他类型的卷积神经网络不同,全卷积网络没有任何全连接层。全卷积网络可以被配置为对输入(例如,具有多个像素的图像)进行逐像素预测。换句话说,全卷积网络可以用于对输入的每个像素进行相应的预测。需要进行逐像素预测的任务的一个示例是图像分割,其中神经网络被配置为针对输入图像的每个像素生成多个类别中的每一个类别的相应分数。


技术实现思路

1、本说明书大体上描述用于执行神经网络的推理计算的技术。

2、根据一个方面,所描述的技术涉及一种由一个或多个计算机执行的方法。所述方法包括:接收将由部署在硬件加速器上的全卷积神经网络处理的新输入;根据新输入确定一个或多个固定大小的输入;将一个或多个固定大小的输入中的每一个提供给硬件加速器,以使用全卷积神经网络执行推理计算;从硬件加速器获得全卷积神经网络为一个或多个固定大小的输入中的每一个生成的相应固定大小的输出;并且从相应固定大小的输出生成最终输出,所述最终输出相当于将通过使用全卷积神经网络处理新输入生成的输出。新输入具有第一大小,所述第一大小不同于当部署在硬件加速器上时全卷积神经网络被配置为处理的固定大小。一个或多个固定大小的输入中的每一个都具有固定大小。相应固定大小的输出具有一个或多个不准确的逐像素结果。

3、可以在特定实施例中实现本说明书中描述的主题,以便实现以下优点中的一个或多个优点。

4、所描述的技术允许部署在硬件加速器上的静态编译的全卷积网络模型处理具有未知或变化大小的输入数据。一般来说,虽然全卷积神经网络原则上可以处理任意大小的输入,但是已经部署在硬件加速器上的静态编译的神经网络无法处理不同大小的输入。另外,难以编译用于部署在硬件加速器上的能够动态地处理具有未知或变化大小的输入数据的神经网络。然而,所描述的技术可以将输入数据有效地平铺成多个较小的固定大小的输入,并提供用于执行静态编译的全卷积网络的推理计算的输入。

5、所描述的技术还可以将生成的固定大小的输出拼接在一起,以产生给定随机大小输入的最终输出,所述最终输出相当于已经通过全卷积网络处理随机大小的输入而生成的输出。因此,所描述的技术允许全卷积网络编译为当部署在硬件加速器上时仅接受固定大小的输入,从而为不同大小的输入生成准确输出,而无需修改编译的模型或硬件加速器的操作。

6、另外,所描述的技术可以基于全卷积网络的特征而自动地生成用于平铺和拼接网络的输入和输出的优化参数。利用这些优化参数,所描述的技术可以提高对具有未知或变化大小的输入数据执行推理计算的计算效率。

7、所描述的技术可以并行执行不同图块(例如,固定大小的输入)的推理操作,利用相邻加速器之间的数据共享特性来减少内存使用。例如,所描述的技术可以根据具有各种大小的输入或输出数据来优化跨相邻固定大小输入的重叠区域的数据传递。

8、此外,所描述的技术对于不同的输入大小和硬件加速器架构是稳健的。所描述的技术可以自动地标识硬件约束或要求,例如系统内存带宽。所描述的技术可以基于所标识的硬件约束或要求而有效地平铺任意较大大小的输入,以适应部署在硬件加速器上的全卷积网络。所述系统还可以通过在输入周围填充零以达到固定大小而稳健地处理大小小于全卷积网络的固定大小的输入。

9、例如,对于具有高级内存寻址功能的加速器(例如,包括直接内存访问(dma)引擎的加速器),所描述的技术可以减少或消除与用于平铺输入和拼接固定大小的输出的数据操纵相关的开销时间。作为另一示例,对于架构更简单或内存带宽更少的加速器,所描述的技术可以一次对单个模型执行操作。在一些实现方式中,所描述的技术可以确定计算系统中是否存在加速器阵列,并且响应于确定存在加速器阵列,所描述的技术可以并行执行不同图块的推理操作,利用相邻加速器之间的数据共享特性来减少内存使用。

10、此外,本说明书中描述的技术与传统的数据并行化技术相比是不同的且有利的。一般来说,数据并行化技术可以将输入数据(例如,输入图像)分成多个不相交的部分(例如,输入图像的片段),并将多个部分分配给多个硬件组件(例如,硬件加速器)以独立地且并行地处理这些部分以生成部分输出。在硬件组件处理所有部分之后,被配置为执行数据并行化技术的系统可以通过聚合部分输出来生成最终输出。只要每个硬件组件针对分别指定的部分正确地执行操作,系统就无需考虑部分输出的任何部分是否不适合或不准确地生成最终输出。

11、然而,一般来说,全卷积网络通常不利用数据并行化技术,因为通过全卷积网络处理输入图像的一部分(例如,本说明书中描述的输入图像的图块)生成的输出可以包括一个或多个不正确或不准确的逐像素值。这是因为系统处理输入图块的计算可能涉及“相邻像素”,使得输出像素的一部分可能不准确。

12、整个说明书中的术语“相邻像素”表示全卷积网络模型的输入的边界周围的像素。相邻像素可以包括通过由全卷积网络模型的一个或多个层指定的零填充添加到输入边界的像素。对于全卷积网络模型的固定大小的输入(例如,从全输入数据中提取的图块),相邻像素还可以包括全输入数据中原本围绕固定大小的输入的像素。

13、在整个说明书中,围绕全卷积网络模型的输入或固定大小的输入并包括相邻像素的区被称为“相邻像素区域”。相邻像素区域可以包括一个或多个像素的宽度。在一些实现方式中,可以基于全卷积网络模型的特征而确定相邻像素区域的宽度。在计算过程中,相邻像素可能具有零像素值或用零像素值替换,从而使通过全卷积网络模型处理相邻像素的输出不准确。

14、在一些实现方式中,相邻像素最初处于完整输入数据中。当从完整输入数据中提取固定大小的输入时,系统可能需要一个或多个相邻像素来处理固定大小的输入。但是,系统可能将一个或多个非零相邻像素的值更改为零,从而使一些像素位置处的计算不准确。

15、例如,所述系统可以包括过滤器大小大于一的一个或多个卷积层。为了处理固定大小的输入的边界像素,系统可以使用边界像素外部的一个或多个相邻像素来计算对应的逐像素输出。在计算过程中,非零相邻像素可能用零值替换。通过使用零值相邻像素(而不是与相邻像素相关联的真实像素值)来处理固定大小的输入,固定大小的输出中的一个或多个像素值可能不准确。

16、作为另一示例,系统可以包括过滤器大小大于一的一个或多个转置卷积层。如果转置卷本文档来自技高网...

【技术保护点】

1.一种由一个或多个计算机执行的方法,所述方法包括:

2.如权利要求1所述的方法,还包括:

3.如权利要求2所述的方法,其中确定所述固定大小还包括:

4.如权利要求1所述的方法,还包括:

5.如权利要求1至2中任一项所述的方法,其中确定所述固定大小还包括:

6.如权利要求1至5中任一项所述的方法,其中所述相应固定大小的输出中的每一个包括中心有效区域和宽度为第一像素数的外围虚拟区域,其中所述中心有效区域包括所述最终输出的至少一部分,其中所述外围虚拟区域包括一个或多个不准确的逐像素结果。

7.如权利要求6所述的方法,其中所述第一像素数基于所述全卷积神经网络的特征被确定。

8.如权利要求6所述的方法,其中从所述相应固定大小的输出生成所述最终输出包括:

9.如权利要求8所述的方法,其中组合所述相应固定大小的输出还包括:

10.如权利要求9所述的方法,其中确定表示所述相应坐标偏移的数据包括:

11.如权利要求9所述的方法,其中确定表示所述相应坐标偏移的数据包括:

<p>12.如权利要求2、4、7或11中任一项所述的方法,其中所述全卷积神经网络的所述特征包括:所述全卷积神经网络的每个网络层的相应过滤器大小、零填充大小、步幅大小和比例因子。

13.一种系统,所述系统包括一个或多个计算机和一个或多个存储装置,所述存储装置存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行如权利要求1至12中任一项所述的方法的操作。

14.一种或多种计算机存储介质,所述计算机存储介质存储指令,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行如权利要求1至12中任一项所述的方法的操作。

...

【技术特征摘要】
【国外来华专利技术】

1.一种由一个或多个计算机执行的方法,所述方法包括:

2.如权利要求1所述的方法,还包括:

3.如权利要求2所述的方法,其中确定所述固定大小还包括:

4.如权利要求1所述的方法,还包括:

5.如权利要求1至2中任一项所述的方法,其中确定所述固定大小还包括:

6.如权利要求1至5中任一项所述的方法,其中所述相应固定大小的输出中的每一个包括中心有效区域和宽度为第一像素数的外围虚拟区域,其中所述中心有效区域包括所述最终输出的至少一部分,其中所述外围虚拟区域包括一个或多个不准确的逐像素结果。

7.如权利要求6所述的方法,其中所述第一像素数基于所述全卷积神经网络的特征被确定。

8.如权利要求6所述的方法,其中从所述相应固定大小的输出生成所述最终输出包括:

9.如权利要求8所述的方法,...

【专利技术属性】
技术研发人员:图沙尔·库马尔索尔戈利·阿肖克·哈拉姆比贾森·钟·奎·朴阿伦·肖汉禹同爀
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1