一种基于嵌入式GPU和卷积计算的图像处理方法和装置制造方法及图纸

技术编号：22136146 阅读：46 留言：0更新日期：2019-09-18 09:44

本发明专利技术公开了一种基于嵌入式GPU和卷积计算的图像处理方法和装置，针对SSD算法中的卷积计算进行优化，采用内存优化的卷积扩展对输入图像进行矩阵变换，利用CUDA并行处理形成中间矩阵，同时采用卷积核矩阵行列扩充对齐，卷积核矩阵扩充后做分块处理以减少运算时内存开销，最后采用CUDA库中高度优化的cuBLAS矩阵乘法函数进行卷积计算并行加速，最后合并输出矩阵。本发明专利技术提供的方法能够降低内存开销，提高算法的性能，同时发挥GPU并行控制的优势，减少矩阵乘法时间，提高计算效率。

An Image Processing Method and Device Based on Embedded GPU and Convolution Computing

全部详细技术资料下载

【技术实现步骤摘要】
一种基于嵌入式GPU和卷积计算的图像处理方法和装置
本专利技术涉及计算机视觉
，更具体的说是涉及一种基于嵌入式GPU和卷积计算的图像处理方法和装置。
技术介绍
自从在ImageNet竞赛中引入卷积神经网络以来，计算机视觉技术在过去几年中取得了长足的进步，在诸如图像分类、模式识别和多媒体压缩等各种领域表现出了很好的性能。其中SSD算法得到了广泛的应用，SSD算法均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，然后利用卷积神经网络提取特征后直接进行分类与回归，整个过程只需要一步，速度快于RCNN系列算法。SSD算法在多尺度特征图、利用卷积进行检测、设置检验框等方面做了优化，更适合检测相对较小的目标。由于SSD检测算法过程比较复杂，当在嵌入式硬件平台上实现时，需要消耗大量的存储、计算单元，这就对硬件平台提出了较高的要求。由于用DSP和FPGA等硬件编程相对于软件开发来说难度很大，另一方面很多针对软件的算法很难以用硬件实现，而且硬件开发的周期更长、成本更高，故综合考虑选用嵌入式GPU作为处理器。嵌入式GPU可以并发执行程序、支持深度学习CUDA库；然而，嵌入式GPU内存有限，因此，如何在嵌入是平台上优化卷积计算的内存利用率和运行时间对于图像处理就显得十分重要。因此，如何提供一种基于嵌入式GPU和卷积计算的图像处理方法是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此，本专利技术提供了一种基于嵌入式GPU和卷积计算的图像处理方法和装置，能够降低内存开销、提高计算效率。为了实现上述目的，本专利技术采用如下技术方案：一种基于嵌入式GPU和卷积...

【技术保护点】
1.一种基于嵌入式GPU和卷积计算的图像处理方法，其特征在于，包括：S1：采用内存优化的卷积扩展方法对输入图像进行矩阵变换和CUDA并行处理，得到中间矩阵；S2：对输入图像进行卷积核矩阵行列扩充，得到卷积核临时矩阵，对所述卷积核临时矩阵进行分块处理，生成卷积核子矩阵；S3：对中间矩阵和卷积核子矩阵进行卷积计算；S4：对卷积计算后输出的子矩阵进行合并，得到输出矩阵。

【技术特征摘要】
1.一种基于嵌入式GPU和卷积计算的图像处理方法，其特征在于，包括：S1：采用内存优化的卷积扩展方法对输入图像进行矩阵变换和CUDA并行处理，得到中间矩阵；S2：对输入图像进行卷积核矩阵行列扩充，得到卷积核临时矩阵，对所述卷积核临时矩阵进行分块处理，生成卷积核子矩阵；S3：对中间矩阵和卷积核子矩阵进行卷积计算；S4：对卷积计算后输出的子矩阵进行合并，得到输出矩阵。2.根据权利要求1所述的一种基于嵌入式GPU和卷积计算的图像处理方法，其特征在于，在步骤S1中，采用内存优化的卷积扩展方法对输入图像进行矩阵变换的具体步骤包括：S11：在输入图像对应的输入矩阵I[0:ih,0:iw]上，选取[0:ih,0:sw]为滑动窗口，滑动窗口大小为ih*sw；ih为输入矩阵的行，iw为输入矩阵的列；S12：滑动窗口[0:ih,0:sw]依次在输入矩阵I[0:in,0:iw]上开始滑动，滑动步长为1，滑动窗口内的数据按行拉伸为中间矩阵L[0:oh,0:ow]的一行；S13：滑动窗口[0:ih,x:sw]在输入矩阵I[0:ih,0:iw]上滑动iw-sw+1个单位后结束，形成中间矩阵L[0:oh,0:ow]，oh＝iw-sw+1，ow＝ih*sw，中间矩阵的行数为iw-sw+1，oh为中间矩阵的行，ow为中间矩阵的列。3.根据权利要求1所述的一种基于嵌入式GPU和卷积计算的图像处理方法，其特征在于，步骤S2的具体步骤包括：S21：以卷积核矩阵s[0:sw*sh，1]为滑动窗口，滑动窗口在卷积核临时矩阵S上滑动，其中，卷积核临时矩阵S初始化为空；sw为卷积核矩阵的长，sh为卷积核矩阵的宽；S22：滑动窗口s在卷积核临时矩阵S第1列上向下滑动0个单位，S内其余元素补0，形成卷积核临时矩阵S的第1列；S23：滑动窗口s在卷积核临时矩阵S第i列上向下滑动3*(i-1)个单位，S内其余元素补0，形成卷积核临时矩阵S的第i列；S24：基于上述步骤得到卷积核临时矩阵S[0:Sh,0:Sw]，且卷积核临时矩阵S[0:Sh,0:Sw]中每列有效数据与卷积核矩阵s[0:sw*sh，1]的数据相对应，S上其余元素为0；Sh＝ih*sw，Sw＝ih-sh+1；Sh为卷积核临时矩阵的行，Sw为卷积核临时矩阵的列；S25：...

【专利技术属性】
技术研发人员：姜宏旭，王玺坤，李波，张永华，林珂玉，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人