面向向量处理器的去块滤波向量化实现方法技术

技术编号:13462769 阅读:53 留言:0更新日期:2016-08-04 15:13
一种面向向量处理器的去块滤波向量化实现方法,其步骤为:S1:数据准备;输入n×m的被滤波视频数据块到向量存储体中,并进行系向量化;S2:水平滤波操作;S3:结果存储;根据步骤S2的结果为每个PE选择出(p3,p2,p1,p0,q0,q1,q2,q3)的最终结果以及p3和q3的值(p3,p2′,p1′,p0′,q0′,q1′,q2′,q3),存入矩阵寄存器文件;S4:重复步骤S2和步骤S3,直到水平方向所有边界滤波完毕;S5:垂直滤波;S6:结果存储;根据步骤S5的结果为每个PE选择出(p3,p2,p1,p0,q0,q1,q2,q3)的最终结果以及p3和q3的值(p3,p2′,p1′,p0′,q0′,q1′,q2′,q3),直接存入向量存储体;S7:重复步骤5和步骤6,直到垂直方向所有边界滤波完毕。本发明专利技术具有能够高效计算、充分发挥向量处理器多PE协作、缩短运算时间等优点。

【技术实现步骤摘要】
【专利摘要】一种,其步骤为:S1:数据准备;输入n×m的被滤波视频数据块到向量存储体中,并进行系向量化;S2:水平滤波操作;S3:结果存储;根据步骤S2的结果为每个PE选择出(p3,p2,p1,p0,q0,q1,q2,q3)的最终结果以及p3和q3的值(p3,p2′,p1′,p0′,q0′,q1′,q2′,q3),存入矩阵寄存器文件;S4:重复步骤S2和步骤S3,直到水平方向所有边界滤波完毕;S5:垂直滤波;S6:结果存储;根据步骤S5的结果为每个PE选择出(p3,p2,p1,p0,q0,q1,q2,q3)的最终结果以及p3和q3的值(p3,p2′,p1′,p0′,q0′,q1′,q2′,q3),直接存入向量存储体;S7:重复步骤5和步骤6,直到垂直方向所有边界滤波完毕。本专利技术具有能够高效计算、充分发挥向量处理器多PE协作、缩短运算时间等优点。【专利说明】
本专利技术主要设及到向量处理器及视频编解码领域,特指一种面向向量处理器的去 块效应滤波的向量化实现方法。
技术介绍
在视频编解码算法中,基于块的预测、补偿、变化、量化会造成块效应,严重影响重 建图像的主观感知质量。为了消除图像的块效应,往往需要对重建图像进行块滤波,而国际 标准H. 264更是把去块效应滤波算法纳入到编解码算法的环路中,称为环路去块效应滤波 (in-loop deblocking filtering);由于编码块的每一个边界都需要进行滤波判决、计算 W及反复更新存储等,使得去块滤波算法耗费了解码器=分之一 W上的计算复杂度。因此, 采用加快去块效应滤波的执行速度对于实时高清视频编解码具有重要意义。 加速去块效应滤波的通常做法是并行化。研究者往往采用专用硬件来加速去块效 应滤波算法,运种方法的缺点是灵活性差,在标准更新较为频繁的情况下开销巨大;同时, 必须采用专用的转置电路来处理去块效应滤波算法中对行列数据的访问。因此,可编程方 式更具市场。 然而,传统单核处理器难W满足实时解码器对去块效应滤波的计算需求,多核处 理器由于禪合较为松散,核间数据传递开销较大,因此也不适用于去块效应滤波并行化加 速。在运种情况下,向量处理器成为了首选。向量处理器一般由多个处理单元(PE)组成,PE 间禪合紧密,每个PE包含独立的多个功能部件,如乘法部件、加法部件、移位部件等。每隔PE 都执行超长指令字(VLIW)指令,包含多个执行包,不共享流水线的功能部件可W同时执行 多个执行包。每个PE包含一组局部寄存器,所有PE的同一编号的局部寄存器在逻辑上又组 成一个向量寄存器。例如图1中PE_0~PE_M-1的所有RO寄存器在逻辑上组成了向量寄存器 VR0,每个PE所对应的RO称为向量寄存器VRO的一个元素。同时,向量处理器往往可W提供用 于矩阵行列访问的矩阵寄存器文件,可有效地满足去块效滤波不同方向滤波的存储访问需 求。 然而,去块效应滤波算法自适应较强,相邻边界的执行路径因数据源而不同,且对 于同一个数据需要进行间断地、重复地读写,因此,如何在向量处理器上实现对去块效应滤 波算法的向量化计算加速是一个难点。
技术实现思路
本专利技术要解决的技术问题就在于:针对现有技术存在的技术问题,本专利技术提供一 种原理简单、操作方便、能够高效计算、充分发挥向量处理器多PE协作、缩短运算时间的面 向向量处理器的去块滤波向量化实现方法。 为解决上述技术问题,本专利技术采用W下技术方案:[000引一种,其步骤为: SI:数据准备;输入nXm的被滤波视频数据块到向量存储体中,并进行系向量化; S2:水平滤波操作;选择当前需要滤波的水平边界,每个PE从向量存储体中读取需 要滤波的图像数据(口3,口2,口1,口0,9〇,91,92,93);使用图像数据(口3,口2,口1,口0,9〇,91,92, q3)和常量计算判决条件,并存储在向量条件寄存器中;根据去块效应滤波算法的规则计算 (p3,p2,Pl,PO,qO,ql,q2,q3)的所有结果,分别存人局部向量寄存器中;[001 U S3:结果存储;根据步骤S2的结果为每个阳选择出(p3,p2,Pl,PO,qO,ql,q2,q3)的 最终结果W及p3和q3的值(p3,p2/,pl',p0/,q0/,ql/,q2/,q3),存入矩阵寄存器文件; S4:重复步骤S2和步骤S3,直到水平方向所有边界滤波完毕; S5:垂直滤波;选择当前需要滤波的边界,每个PE从矩阵寄存器文件中读取需要滤 波的图像数据(口3,口2,口1,口0,9〇,91,92,93),使用矩阵寄存器文件中经过了水平滤波的数 据作为原始数据,选择垂直方向的图像数据(口3,口2,口1,口0,9〇,91,92,93)和常量计算判决 条件,并存储在向量条件寄存器中;根据去块效应滤波算法的规则计算(p3,p2,Pl,PO,qO, ql,q2,q3)的所有结果,分别存入局部向量寄存器中; S6:结果存储;根据步骤S5的结果为每个PE选择出(p3,p2,Pl,PO,qO,ql,q2,q3)的 最终结果W及p3和q3的值(p3,p2/,pl',p〇/,q〇/,ql/,q2/,q3),直接存入向量存储体; S7:重复步骤5和步骤6,直到垂直方向所有边界滤波完毕。 作为本专利技术的进一步改进:所述步骤S3和步骤S6中选择最终结果的操作包含W下 步骤: Sioo:假设每个阳对应的边界的Pi的计算候选结果由RO~Rk-I组成,运些结果组 成一个完整的或者不完整的二叉树;对于任意一个PE,Pi的最终结果一定存在于RO~Rk-I 中;把RO~Rk-I根据PE的个数展开可写巧;根据去块效应滤波算法 中相应的判决条件获得条件操作的条件矩^, 其中 [001 引 S200:根据条件矩阵,通过k次向量条件MOV操作,可得Pi的最终结果Pi;即,Pi=S Ri ? Ci; S300:重复步骤SlOO、S200,直到p2,Pl,pO,qO,ql,q2的结果选择完毕。 作为本专利技术的进一步改进:所述步骤S3和步骤S6中条件操作的具体操作方法是: 假设向量处理器当前执行向量指令Inst,同时有条件寄存器R0,RO= {Roi,R〇2, ...,Rom-I},分 别对应阳G~阳M-1。若Roi = = 1,则阳i执行指令Inst,否则阳i执行空操作。 作为本专利技术的进一步改进:所述向量存储体包括M个存储块,所述M个存储块与M个 向量PE依次一一对应;M个存储块统一编址,按BANK交叉存放;即,第一个字在第一个BANK存 放,第二个字在第二个BANK存放,…,直到第M个字在第M个BANK存放;然后第M+1个字又在第 一个BANK存放,…,依次类推;每个存储块分成上存储区和下存储区并支持同时进行两个向 量访存操作。 作为本专利技术的进一步改进:所述向量矩阵寄存器文件由MXM个存储单元组成,每 个存储单元的位宽一般为4、8、12、16、32,该阵列在逻辑上为由1个行向量寄存器¥則一¥尺|?-1 或M个列向量CVRo-CVRm-I寄存器组成;每个行向量寄存器包含M个元素 Ei,〇-Ei, M-I,其中i = 0,1,2……M-I,每个列向量寄存器包含M个元素 Eo,i-Em-I,i,其中i = 0,l,2……M-I;矩阵寄 存器在读写本文档来自技高网
...

【技术保护点】
一种面向向量处理器的去块滤波向量化实现方法,其特征在于,步骤为:S1:数据准备;输入n×m的被滤波视频数据块到向量存储体中,并进行系向量化;S2:水平滤波操作;选择当前需要滤波的水平边界,每个PE从向量存储体中读取需要滤波的图像数据(p3,p2,p1,p0,q0,q1,q2,q3);使用图像数据(p3,p2,p1,p0,q0,q1,q2,q3)和常量计算判决条件,并存储在向量条件寄存器中;根据去块效应滤波算法的规则计算(p3,p2,p1,p0,q0,q1,q2,q3)的所有结果,分别存入局部向量寄存器中;S3:结果存储;根据步骤S2的结果为每个PE选择出(p3,p2,p1,p0,q0,q1,q2,q3)的最终结果以及p3和q3的值(p3,p2′,p1′,p0′,q0′,q1′,q2′,q3),存入矩阵寄存器文件;S4:重复步骤S2和步骤S3,直到水平方向所有边界滤波完毕;S5:垂直滤波;选择当前需要滤波的边界,每个PE从矩阵寄存器文件中读取需要滤波的图像数据(p3,p2,p1,p0,q0,q1,q2,q3),使用矩阵寄存器文件中经过了水平滤波的数据作为原始数据,选择垂直方向的图像数据(p3,p2,p1,p0,q0,q1,q2,q3)和常量计算判决条件,并存储在向量条件寄存器中;根据去块效应滤波算法的规则计算(p3,p2,p1,p0,q0,q1,q2,q3)的所有结果,分别存入局部向量寄存器中;S6:结果存储;根据步骤S5的结果为每个PE选择出(p3,p2,p1,p0,q0,q1,q2,q3)的最终结果以及p3和q3的值(p3,p2′,p1′,p0′,q0′,q1′,q2′,q3),直接存入向量存储体;S7:重复步骤5和步骤6,直到垂直方向所有边界滤波完毕。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈胜刚万江华刘胜王耀华陈小文刘仲陈海燕
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1