一种面向硬件加速器的图像匹配方法组成比例

技术编号:7611759 阅读:271 留言:0更新日期:2012-07-25 23:36
本发明专利技术公开了一种面向硬件加速器的图像匹配方法,包括以下步骤:将待匹配图像和模板图像分别拆分为大小为B*B的基本方格;将待匹配图像中的每一个基本方格与其右侧、下侧、右下侧紧邻的三个基本方格合并形成(m-1)*(n-1)个大小为2B*2B的组合方块;将模板图像中的一个B*B基本方格和覆盖子图中的所有组合方块分别依次关联形成(m-p)*(n-q)个相互独立的基本计算单元;重复计算直至得到(m-p)*(n-q)*p*q个基本运算单元;将基本运算单元均匀分配到硬件加速器的x个核上并行运算得到(m-p)*(n-q)*p*q个单元相关矩阵;将覆盖同一子图所对应的p*q个单元相关矩阵相加后得到一个相关系数子矩阵;由(m-p)*(n-q)个子图对应得到(m-p)*(n-q)个相关系数子矩阵,将相关系数子矩阵顺序排布得到总相关系数矩阵,进而完成匹配。

【技术实现步骤摘要】

本专利技术涉及图像匹配领域,特指一种支持硬件加速器的图像匹配方法。
技术介绍
图像匹配就是给定参考的模板图像后,在待匹配中搜索与模板图像最接近的目标点位置的过程。基于灰度值的相关匹配算法是图像匹配的常用方法。相关匹配算法直接利用模板图像和待匹配图像的灰度值信息进行相似性比较,在较高分辨率的待匹配图像上搜索模板图像的相似区域,实现在待匹配图像上的位置匹配。相关匹配算法运算的核心是对两幅图像相似性度量准则的运算。在基于灰度的相关匹配算法中,确定以灰度相似为基础的相似性度量函数是算法的重要环节。相似性度量函数是判断两幅图像相似度的标准。常见的灰度相关算法中的相似性度量函数包括最小绝对差算法,最小平方差算法,零均值平均绝对差算法,归一化互相关算法等。其中绝对差和平方差相似性度量相同,其值越大,说明两幅图像差异越大越不相似;反之,值越小,说明两幅图像越相似。对绝对差及平方差度量进行零均值化,可以克服帧间亮度变化对匹配造成的影响。归一化互相关度量没有伪极大值,且不受图像间刻度误差的影响。但其计算量大,影响到算法的实时性。目前基于灰度值相关的快速图像匹配算法的研究大多集中在软件实现层面,没有与硬件化运算相关联。 现有文献中已公开了一种归一化积相关图像匹配算法中的图像分块并行处理方法(李俊山沈续榜,归一化积相关图像匹配算法中的图像分块并行处理方法,小型微型计算机系统,2004,25 (11) =1986-1989),虽然能应用于归一化积相关图像匹配中,但是该算法采用的是块与块之间的数据按行或列平行移动的方法,导致了块与块之间存在着较高的通信复杂度。以绝对差累加和作为相似性度量函数的相关匹配算法是一种最基本的图像匹配算法。通常求待匹配图像和模板图像的绝对差累加和构成的相关系数矩阵时,是将模板在待匹配图像按照一定顺序滑动。模板覆盖到区域左上角顶点的相关系数则是模板覆盖到的所有点所在的图像上灰度值与匹配模板对应点灰度值的绝对差累加和。该匹配算法的运算量与模板图像分辨率成正比。绝对差累加和的相关匹配计算复杂度低,且能够实现硬件化提高算法速度。硬件加速器采用一个PE阵列结构和一个加法树结构加速绝对差累加和运算的执行。如图I所示,硬件加速器包括DMA接口、搜索窗口缓冲区(P_Buffer)、模板缓冲区(T_ Buffer)和计算结果缓冲(SAD_BufTer)、状态机(FSM)、AD阵列和加法树及累加结构。SAD 加速器通过外设总线和DMA总线同DSP核相连,通过外设总线对SAD加速器进行配置。DMA 总线在SAD加速器和DSP核间传输图像数据和计算结果。对64*64的搜索窗口与32*32的模板图像进行绝对差累加和的相关计算时,采用软件方式实现,得到相关系数矩阵的时间为3s,而采用硬件加速器运算,得到相同结果的时间仅需I. 37ms。从时间耗费来看,硬件化计算的优势相当明显,比软件计算的速度提高了 3个数量级。但是硬件化的相关计算也存在问题由于图像缓冲器的限制,SAD加速器只能支持计算64*64的待匹配图像与32*32的模板图像匹配,当模板图像的分辨率较大时,绝对差累加和匹配算法无法直接应用硬件化计算。在实际的应用中,面临的搜索窗口大小和模板大小往往是64*64和32*32的若干倍。 因此如何对图像和模板拆分,使之成为一系列的基本粒度单元运算是一个关键问题。同时要考虑到,拆分后的计算仍然覆盖到了整个图像和模板而没有遗漏,拆分后的计算量最小, 同时数据的搬运量最小。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术存在的问题,本专利技术提供一种能实现图像相关匹配算法的,运算速度快、运算性能。为解决上述技术问题,本专利技术采用以下技术方案—种面向硬件加速器的图像匹配方法,包括以下步骤(I)将待匹配图像Wmw拆分成m*n个大小为B*B的基本方格,其中m = Μ/Β, η = Ν/Β ;将模板图像Tw拆分为p*q个大小为B*B的基本方格,其中P = P/B, q = Q/B ;(2)将待匹配图像中的每一个基本方格与其右侧、下侧、右下侧紧邻的三个基本方格合并,形成m*n个大小为2B*2B的组合方块;(3)将模板图像在待匹配图像上滑动,被覆盖区域为子图;将模板图像中的一个 B*B基本方格和其在滑动过程中覆盖子图的所有组合方块分别依次关联,根据相关性度量函数的算法形成(m-p)*(n-q)个相互独立的基本计算单元;(4)顺移到模板图像中的下一个B*B基本方格,重复步骤(3),直至得到 (m-p) * (n-q) *p*q个基本计算单元;(5)将所述(m-p)*(n-q)*p*q个基本计算单元均勻分配到硬件加速器的X个核上, 并行运算得到(m-p) * (n-q) *p*q个单元相关矩阵;(6)将覆盖同一子图对应的p*q个单元相关矩阵相加后得到一个相关系数子矩阵;(7)模板图像在待匹配图像上滑动得到(m-p)*(n-q)个子图,对应得到 (m-p)*(n-q)个相关系数子矩阵,将所有相关系数子矩阵按照模板图像在待匹配图像上滑动的顺序进行排列即可得到总相关系数矩阵;(8)根据所述总相关系数矩阵,即可得到模板图像在待匹配图像中的位置。作为本专利技术的进一步改进所述步骤(5)具体包括以下步骤(5. I)将待匹配图像和模板图像的完整数据复制到参与计算的硬件加速器的每一个核上;(5. 2)将所述(m-p) * (n-q) *p*q个基本计算单元平均分配到硬件加速器的x个核上进行计算,得到(m-p) * (n-q) *p*q个单元相关矩阵;(5.3)将得到的所有单元相关矩阵,存入到内存中的中间结果数组中。所述相关性度量函数为绝对差累加和,所述硬件加速器是能够计算待匹配图像中 2B*2B的组合方块与模板图像中的B*B的基本方格的以绝对差累加和的相关运算硬件加速器。以子图S的左上角顶点(x,y)为起始点,模板图像与子图S的绝对差之和d(x,y)的计算公式如下d(χ,γ) = ^^(/', j)-T(/',7')| = Wfvim (I TpitQi=l ;=1 ^ 1 )其中,Sx’y(i,j)为在待匹配图像上以(X,y)为左上角顶点的子图S中,横纵序列号分别为i,j的点的灰度值;T(i,j)为模板图像中横纵序列号分别为i,j的点的灰度值。与现有技术相比,本专利技术的优点在于本专利技术的面向硬件加速器的图像匹配方法,将图像相关匹配算法拆分成能够独立进行硬件化运算的基本粒度单元,实现了高分辨率图像在硬件加速器上计算,又实现了相关匹配算法的并行化计算,大大提高了相关匹配算法的运算效率,提高了匹配速度。附图说明图I是典型的硬件加速器的结构示意图。图2是本专利技术的总流程示意图。图3是本专利技术的待匹配图像拆分成的基本方格示意图。图4是本专利技术的模板图像拆分成的基本方格示意图。图5是本专利技术的待匹配图像基本方格形成的组合方块示意图。图6是本专利技术的待匹配图像的组合方块和模板图像的基本方格关联形成的基本计算单元示意图。具体实施例方式以下将结合说明书附图和具体实施例对本专利技术作进一步详细说明。如图2所示,,包括以下步骤I、将待匹配图像Wmw拆分成m*n个大小为B*B的基本方格,其中m = M/B, n = N/ B ;将模板图像Tw拆分为p*q个大小为B*B的基本方格,其中P = P/B, q 本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:扈啸黄俊杰陈书明刘衡竹龚国辉刘仲鲁建壮陈胜刚
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术