一种基于GPU并行加速的三维块匹配降噪方法技术

技术编号:20845678 阅读:34 留言:0更新日期:2019-04-13 09:04
本发明专利技术涉及图像处理技术领域,具体公开了一种基于GPU并行加速的三维块匹配降噪方法,包括将待处理的图像进行边界对称扩展预处理;将预处理后的图像数据发送至GPU的全局存储器中;创建线程网络grid,采用全局存储器合并访问的模式及共享存储器多次循环利用的加速策略,对相似图像块匹配分组进行加速处理;采用硬阈值协同滤波内核函数并行加速策略获取三维相似矩阵的第一步降噪估计数据;以第一步降噪估计数据为参考,联合维纳协同滤波内核函数并行加速策略获取第二步降噪估计数据;将第二步降噪估计数据剔除扩展边界像素。本发明专利技术能提高数据访问速度和减少重复访问延时,还能有效去除图像中的噪声,有利于对大尺寸图像实时降噪处理。

【技术实现步骤摘要】
一种基于GPU并行加速的三维块匹配降噪方法
本专利技术涉及图像处理
,具体公开了一种基于GPU并行加速的三维块匹配降噪方法。
技术介绍
数字图像在获取和传输过程中由于受到成像设备和外部环境的影响常常含有大量噪声,影响图像质量。尤其是在医学应用上,由于受低剂量电压电流的影响,CT图像中往往会引入大量的噪声,致使图像质量退化,影响医生的临床病症诊断。常见的三维块匹配(BM3D)算法凭借其自身结合局部、非局部、多尺度稀疏、自适应的滤波降噪特点,被认为是目前最好的图像去噪算法,但是该算法基于相似图像块协同滤波,算法复杂度高,计算量大,处理大尺寸的CT图像数据时,耗时较长,处理效率较低,无法满足实际工作需求。因此,需要一种能解决上述问题的方法。
技术实现思路
为了克服现有技术中存在的缺点和不足,本专利技术的目的在于提供一种基于GPU并行加速的三维块匹配降噪方法。为实现上述目的,本专利技术采用如下方案。一种基于GPU并行加速的三维块匹配降噪方法,包括:在CPU端将待处理的图像进行边界对称扩展预处理;将预处理后的图像数据从CPU主机端发送至GPU的全局存储器中;创建线程网络grid,采用全局存储器合并访问的模式及共享存储器多次循环利用的加速策略,对相似图像块匹配分组进行并行加速处理;采用硬阈值协同滤波内核函数并行加速策略获取三维相似矩阵的第一步降噪估计数据;以第一步降噪估计数据为参考,联合维纳协同滤波内核函数并行加速策略获取第二步降噪估计数据;将第二步降噪估计数据从GPU发送至CPU主机端,并剔除扩展边界像素以获取降噪后的图像。进一步地,所述创建线程网络grid,包括:以图像每个参考块的图像块匹配过程为一个线程块block,搜索窗内每个检测图像块与参考块的相似性匹配过程为每个线程thread进行线程分配;以一定像素的步长分别从行列方向依次递增选取参考图像块,并根据图像中参考图像块个数确定线程网grid的大小,根据参考图像块搜索窗的图像块个数确定线程block的大小。进一步地,,所述采用全局存储器合并访问的模式及共享存储器多次循环利用的加速策略,对相似图像块匹配分组进行并行加速处理,包括:将同一个warp中的所有线程thread执行同一条指令访问全局存储器中连续单元,以获得合并访问模式;将搜索窗分成大小为32*32的4个分块,并在每个分块中以block(16,16)的线程进行相似性计算获取相似块,其中d为图像块间的距离,定义为两个图像块对应元素数值差的模除以图像块的大小,τthreod为选取的适合的距离阈值;将搜索窗中像元数据分块循环共享存储器中,并设置threadIdx.x<16且threaIdx.y<16;采用最小值归约并行的策略寻找规定数目的最相似图像块。进一步地,,所述采用最小值归约并行的策略寻找规定数目的最相似图像块,包括:将参考图像块的相似图像块按照相似距离由小到大排序聚集成三维矩阵;启用n个线程分别与相似性计算得到的n个距离值D[n]对应;将第i个线程的值与第(i+n/2)个线程的距离值进行比较并将较小值放在左部分中,较大值放在右部分,则左部分区间为D[0]至D[n/2],右部分区间为D[n/2]至D[n];完成线程并行比较后,将比较线程数减半,对左部分区间距离值进行上述比较,直至多次比较线程数减半比较后左部分区间值缩至D[0];以D[0]作为距离值中的最小值,将D[n]起始访问位置后移一位并重复上述步骤寻找最小值,直至找到距离最小的规定数目的相似图像块。进一步地,,所述采用硬阈值协同滤波内核函数并行加速策略获取三维相似矩阵的第一步降噪估计数据,包括:指令混合优化加速,将三维相似矩阵的三维正变换、硬阈值滤波、三维逆变换以及加权估计的过程集成于硬阈值协同滤波内核函数中;其中所述三维正变换包括依次进行二维双正交样条小波正变换和一维沃尔什-哈达玛变换;所述三维逆变换包括依次进行一维沃尔什-哈达玛变换和二维双正交样条小波逆变换;根据参考图像块的大小,选取一定数量的相似图像块,并保持线程网格grid不变和设置线程块block的大小;采用全局存储器合并访问的模式将选取的相似图像块数据从全局存储器送至共享存储器中以构成三维相似矩阵;对三维矩阵进行二维双正交样条小波正变换和一维沃尔什-哈达玛变换,并在变换域中进行硬阈值滤波,硬阈值滤波后再通过一维沃尔什-哈达玛变换和二维双正交样条小波逆变换得到图像块的第一步降噪估计数据,对硬阈值滤波后图像块中灰度值进行加权平均,将加权平均值赋给图像块的单个像素,并在加权平均时引入凯瑟窗系数进行加权优化以获取第一步图像降噪值;同时,将三维相似矩阵进行二维双正交样条小波变换的四个滤波器系数lpd,hpd,lpr,hpr存储在常数存储器中,并利用寄存器在每个线程中定义私有变量存储中间结果。进一步地,,所述以第一步降噪估计数据为参考,联合维纳协同滤波内核函数并行加速策略获取第二步降噪估计数据,包括:指令混合优化加速,将三维相似矩阵的三维正变换、维纳滤波、三维逆变换以及加权估计的过程集成于维纳协同滤波内核函数中;其中所述三维正变换包括依次进行二维离散余弦正变换和一维沃尔什-哈达玛变换;所述三维逆变换包括依次进行一维沃尔什-哈达玛变换和二维离散余弦逆变换;根据参考图像块的大小,选取一定数量的相似图像块,并保持线程网格grid不变和设置线程块block的大小;采用全局存储器合并访问的模式将选取的相似图像块数据从全局存储器送至共享存储器中以构成三维相似矩阵;以第一步降噪估计数据为参考,将原始三维相似矩阵进行二维离散余弦正变换和一维沃尔什-哈达玛变换;进行维纳滤波,并对维纳滤波后的三维相似矩阵进行一维沃尔什-哈达玛变换和二维离散余弦逆变换获取第二步降噪估计数据;对维纳滤波后图像块中灰度值进行加权平均,将加权平均值赋给图像块的单个像素,并在加权平均时引入凯瑟窗系数进行加权优化以获取第二步图像降噪值;同时,利用寄存器将二维离散余弦变换系数存储在每个线程中定义的私有变量中。进一步地,,边界对称扩展预处理时,首先分别对左右两侧的边界列像元进行对称扩展,然后再分别对上下两侧的边界行像元进行对称扩展,并且边界扩展的像元宽度由搜索窗的半径大小确定。本专利技术的有益效果:提供一种基于GPU并行加速的三维块匹配降噪方法,通过合并访问的模式将每个GPU线程块所需要的数据一次从全局存储器读取到共享存储器中,并采用循环利用共享存储器的策略,从而提高数据访问速度和减少重复访问延时,极大提升了算法整体性能,提高了计算效率;同时配合硬阈值协同滤波内核函数和维纳协同滤波内核函数能有效去除图像中的噪声,有利于对大尺寸图像实时降噪处理。附图说明图1为本专利技术实施例的流程示意图。图2为本专利技术实施例图像进行边界对称扩展预处理的示意图。图3为本专利技术实施例线程网格分配的示意图。图4为本专利技术实施例共享存储器使用机制的示意图。图5为本专利技术实施例最小值归约并行排序的示意图。图6为本专利技术使用头模的原始CT图像的示意图。图7为本专利技术去噪后头模的CT图像的示意图。图8为本专利技术使用体模的原始CT图像的示意图。图9为本专利技术去噪后体模的CT图像的示意图。具体实施方式为了便于本领域技术人员的理解,下面结合实施例及附图对本专利技术作进一步的说明,实施方式提及的内本文档来自技高网...

【技术保护点】
1.一种基于GPU并行加速的三维块匹配降噪方法,其特征在于,包括:在CPU端将待处理的图像进行边界对称扩展预处理;将预处理后的图像数据从CPU主机端发送至GPU的全局存储器中;创建线程网络grid,采用全局存储器合并访问的模式及共享存储器多次循环利用的加速策略,对相似图像块匹配分组进行并行加速处理;采用硬阈值协同滤波内核函数并行加速策略获取三维相似矩阵的第一步降噪估计数据;以第一步降噪估计数据为参考,联合维纳协同滤波内核函数并行加速策略获取第二步降噪估计数据;将第二步降噪估计数据从GPU发送至CPU主机端,并剔除扩展边界像素以获取降噪后的图像。

【技术特征摘要】
1.一种基于GPU并行加速的三维块匹配降噪方法,其特征在于,包括:在CPU端将待处理的图像进行边界对称扩展预处理;将预处理后的图像数据从CPU主机端发送至GPU的全局存储器中;创建线程网络grid,采用全局存储器合并访问的模式及共享存储器多次循环利用的加速策略,对相似图像块匹配分组进行并行加速处理;采用硬阈值协同滤波内核函数并行加速策略获取三维相似矩阵的第一步降噪估计数据;以第一步降噪估计数据为参考,联合维纳协同滤波内核函数并行加速策略获取第二步降噪估计数据;将第二步降噪估计数据从GPU发送至CPU主机端,并剔除扩展边界像素以获取降噪后的图像。2.根据权利要求1所述的一种基于GPU并行加速的三维块匹配降噪方法,其特征在于,所述创建线程网络grid,包括:以图像每个参考块的图像块匹配过程为一个线程块block,搜索窗内每个检测图像块与参考块的相似性匹配过程为每个线程thread进行线程分配;以一定像素的步长分别从行列方向依次递增选取参考图像块,并根据图像中参考图像块个数确定线程网grid的大小,根据参考图像块搜索窗的图像块个数确定线程block的大小。3.据权利要求1所述的一种基于GPU并行加速的三维块匹配降噪方法,其特征在于,所述采用全局存储器合并访问的模式及共享存储器多次循环利用的加速策略,对相似图像块匹配分组进行并行加速处理,包括:将同一个warp中的所有线程thread执行同一条指令访问全局存储器中连续单元,以获得合并访问模式;将搜索窗分成大小为32*32的4个分块,并在每个分块中以block(16,16)的线程进行相似性计算获取相似块,其中d为图像块间的距离,定义为两个图像块对应元素数值差的模除以图像块的大小,τthreod为选取的适合的距离阈值;将搜索窗中像元数据分块循环共享存储器中,并设置threadIdx.x<16且threaIdx.y<16;采用最小值归约并行的策略寻找规定数目的最相似图像块。4.据权利要求3所述的一种基于GPU并行加速的三维块匹配降噪方法,其特征在于,所述采用最小值归约并行的策略寻找规定数目的最相似图像块,包括:将参考图像块的相似图像块按照相似距离由小到大排序聚集成三维矩阵;启用n个线程分别与相似性计算得到的n个距离值D[n]对应;将第i个线程的值与第(i+n/2)个线程的距离值进行比较并将较小值放在左部分中,较大值放在右部分,则左部分区间为D[0]至D[n/2],右部分区间为D[n/2]至D[n];完成线程并行比较后,将比较线程数减半,对左部分区间距离值进行上述比较,直至多次比较线程数减半比较后左部分区间值缩至D[0];以D[0]作为距离值中的最小值,将D[n]起始访问位置后移一位并重复上述步骤寻找最小值,直至找到距离最小的规定数目的相似图像块。5.根据权利要求1所述的一种基于GPU并行加速...

【专利技术属性】
技术研发人员:韩玉李磊闫镔荣利会陈健席晓琦梁宁宁孙艳敏王敬雨
申请(专利权)人:东莞信大融合创新研究院中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1