System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于对图像数据进行加速处理的系统、方法及存储介质技术方案_技高网

用于对图像数据进行加速处理的系统、方法及存储介质技术方案

技术编号:40195869 阅读:11 留言:0更新日期:2024-01-26 23:59
本披露公开了一种用于对图像数据进行加速处理的系统、方法及存储介质。该系统包括:传输网络;主存,其用于存储输入的操作指令和图像数据;指令缓存,其通过传输网络与主存连接,用于缓存从主存接收到的操作指令;数据缓存,其通过传输网络与主存连接,用于缓存从主存接收到的图像数据;以及由多个处理单元构成的处理单元阵列,其通过传输网络分别与指令缓存和数据缓存连接,其中每个处理单元用于依据指令缓存中的操作指令对数据缓存中的图像数据执行矩阵乘加操作。本披露实施例利用数据流架构的高度并行的特征,降低数据传输时的带宽和能耗,并且通过处理单元阵列并行执行矩阵乘加操作,从而实现可扩展和可移植的图像数据处理加速系统。

【技术实现步骤摘要】

本披露一般涉及硬件加速器。更具体地,本披露涉及一种用于对图像数据进行加速处理的系统、方法及存储介质


技术介绍

1、数据流架构是一种计算机体系结构,其依赖数据流图计算,可以让编译器同时安排多个顺序循环和功能,由于其具有访存需求少、同步开销低等优点,因此数据流架构在神经网络和科学计算应用中表现出了优异性能,例如图像处理的矩阵乘加操作等等。

2、矩阵乘加操作是科学计算应用组成的重要部分,同时也是机器学习和深度学习中基础和计算密集型的操作之一。其可以用来表示和执行许多重要的线性运算,例如线性变换、线性分类器、线性回归、卷积和嵌入等。矩阵乘加也可以用来描述和优化神经网络的结构和参数。矩阵乘加的效率对于机器学习和深度学习的性能和可扩展性有着重要的影响,同时矩阵乘加操作在图像处理和信号处理领域有着广泛的应用。

3、然而,受限于现有的计算机架构,在执行大规模的矩阵乘加操作时,计算效率依然不佳。有鉴于此,亟需提供一种图像数据处理的加速方案,以便实现更加快速高效的图像数据的矩阵乘加操作。


技术实现思路

1、为了至少解决如上所提到的一个或多个技术问题,本披露在多个方面中提出了图像数据处理的加速方案。

2、在第一方面中,本披露提供一种用于对图像数据进行加速处理的系统包括:传输网络;主存,其用于存储输入的操作指令和图像数据;指令缓存,其通过传输网络与主存连接,用于缓存从主存接收到的操作指令;数据缓存,其通过传输网络与主存连接,用于缓存从主存接收到的图像数据;以及由多个处理单元构成的处理单元阵列,其通过传输网络分别与指令缓存和数据缓存连接,其中每个处理单元用于依据指令缓存中的操作指令对数据缓存中的图像数据执行矩阵乘加操作。

3、在一些实施例中,其中处理单元阵列包括16个处理单元,其中每个处理单元执行64×64规模的矩阵乘加操作。

4、在一些实施例中,其中处理单元阵列包括n2个以数据流图形式进行连接的处理单元,处理单元阵列的规模为n×n,其中n为正整数。

5、在第二方面中,本披露提供一种用于对图像数据进行加速处理的方法,该方法应用于如第一方面任一项所示的系统,该方法包括:将输入的图像数据从主存搬运至数据缓存;将输入的操作指令从主存搬运至指令缓存;从指令缓存中获取数据读取指令并在处理单元阵列中执行,以将图像数据从数据缓存分配至若干处理单元中;从指令缓存中获取矩阵乘加指令并在处理单元阵列中执行,以基于图像数据生成矩阵乘加结果;将矩阵乘加结果输出至数据缓存;以及将矩阵乘加结果返回至主存。

6、在一些实施例中,其中将输入的图像数据从主存搬运至数据缓存包括:将输入的图像数据划分成若干矩阵数据;以及将若干矩阵数据从主存搬运至数据缓存。

7、在一些实施例中,处理单元阵列包括16个处理单元,其中每个处理单元执行64×64规模的矩阵乘加操作;其中将输入的图像数据划分成若干矩阵数据包括:将m×m规模的图像数据划分成(m/64)2个矩阵数据,其中每个矩阵数据的规模为64×64,其中m为正数且为64的倍数。

8、在一些实施例中,主存内存储有配置信息;其中将输入的图像数据划分成若干矩阵数据包括:根据配置信息将图像数据划分成与图像数据规模不同的矩阵数据。

9、在一些实施例中,其中从指令缓存中获取数据读取指令并在处理单元阵列中执行包括:通过指令偏移技术执行数据读取指令,以避免从数据缓存中获取到连续行或连续列的矩阵数据。

10、在一些实施例中,其中在将输入的图像数据从主存搬运至数据缓存的过程中,方法还包括:将主存中搬运的图像数据转换成simd数据,使得图像数据的矩阵乘加任务拆分成若干矩阵乘加子任务;其中基于图像数据生成矩阵乘加结果包括:将若干矩阵乘加子任务分配至若干处理单元中执行,以生成矩阵乘加结果。

11、在第三方面中,本披露提供一种计算机存储介质,其上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时,实现如第二方面任一项的方法。

12、通过如上所提供的用于对图像数据进行加速处理的系统,本披露实施例利用数据流架构的高度并行的特征,将图像数据通过传输网络进行传输,从而减少内存的访问,进而降低带宽和能耗的开销。并且通过将多个处理单元组成的处理单元阵列并行执行矩阵乘加操作,以适应不同大小和形状的矩阵数据以及不同硬件平台的特性和约束,从而实现具有较高可扩展性和可移植性的图像数据处理加速系统。

本文档来自技高网...

【技术保护点】

1.一种用于对图像数据进行加速处理的系统,其特征在于,包括:

2.根据权利要求1所述的系统,其特征在于,其中所述处理单元阵列包括16个处理单元,其中每个处理单元执行64×64规模的矩阵乘加操作。

3.根据权利要求1或2所述的系统,其特征在于,其中所述处理单元阵列包括n2个以数据流图形式进行连接的处理单元,所述处理单元阵列的规模为n×n,其中n为正整数。

4.一种用于对图像数据进行加速处理的方法,其特征在于,所述方法应用于如权利要求1-3任一项所述的系统,所述方法包括:

5.根据权利要求4所述的方法,其特征在于,其中将输入的图像数据从所述主存搬运至所述数据缓存包括:

6.根据权利要求5所述的方法,其特征在于,所述处理单元阵列包括16个处理单元,其中每个处理单元执行64×64规模的矩阵乘加操作;

7.根据权利要求5或6所述的方法,其特征在于,所述主存内存储有配置信息;

8.根据权利要求4所述的方法,其特征在于,其中从所述指令缓存中获取数据读取指令并在所述处理单元阵列中执行包括:

9.根据权利要求4所述的方法,其特征在于,其中在将输入的图像数据从所述主存搬运至所述数据缓存的过程中,所述方法还包括:

10.一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,实现如权利要求4-9任一项所述的方法。

...

【技术特征摘要】

1.一种用于对图像数据进行加速处理的系统,其特征在于,包括:

2.根据权利要求1所述的系统,其特征在于,其中所述处理单元阵列包括16个处理单元,其中每个处理单元执行64×64规模的矩阵乘加操作。

3.根据权利要求1或2所述的系统,其特征在于,其中所述处理单元阵列包括n2个以数据流图形式进行连接的处理单元,所述处理单元阵列的规模为n×n,其中n为正整数。

4.一种用于对图像数据进行加速处理的方法,其特征在于,所述方法应用于如权利要求1-3任一项所述的系统,所述方法包括:

5.根据权利要求4所述的方法,其特征在于,其中将输入的图像数据从所述主存搬运至所述数据缓存包括:

...

【专利技术属性】
技术研发人员:田旭李文明
申请(专利权)人:上海处理器技术创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1