基于显著性和最小可察觉失真的感知视频编码方法技术

技术编号:10781391 阅读:194 留言:0更新日期:2014-12-17 02:20
本发明专利技术涉及一种基于显著性和最小可察觉失真的感知视频编码方法,属于视频编码领域。其技术特点是:分别计算待处理视频帧图像的显著值和最小可察觉失真值,根据视频帧图像的显著值调整最小可察觉失真值,得到显著性最小可察觉失真阈值;根据显著性最小可察觉失真阈值对视频编码过程中的残差进行滤波,得到基于显著性和最小可察觉失真的感知视频编码。本发明专利技术设计合理,其在HEVC的框架基础上,将人眼视觉两大感知模型——视觉注意力模型和视觉敏感模型相结合构成一种显著性和最小可察觉失真(Saliency–Just Noticeable Distortion,S-JND)算法,能够进一步挖掘并去除视频数据中的视觉冗余,在不影响主观质量的情况下,有效减小了视频编码码率,提高了视频编码效率。

【技术实现步骤摘要】
基于显著性和最小可察觉失真的感知视频编码方法
本专利技术属于视频编码
,尤其是一种基于显著性和最小可察觉失真的感知视频编码方法。
技术介绍
随着技术的进步和人们对视频质量要求的不断提高,高清/超高清视频编码技术作为未来家庭影院、数字广播电视、网络视频等业务的基础核心技术成为业界关注的焦点。当前,高清视频编码标准主要有H.264/AVC、MPEG-2、AVS等;对于超高清视频,业内相关机构正在进行关键技术研究与系统实验,其视频编码标准尚未统一。高清/超高清视频业务的发展对现有的图像和视频压缩技术提出了新的要求:视频编码的压缩效率需要进一步提高,图像和视频应更加注重主观质量。为此,国际标准化组织ISO/IEC(MPEG)和ITU-T启动了下一代数字视频压缩标准的规划,并且于2011年2月份完成第八次JCT-VC会议,下一代数字视频压缩标准目前命名为高效视频编码(HighEfficiencyVideoCoding,HEVC)。目标是在H.264/AVC高档次的基础上,将压缩效率提高一倍以上。视频编码的主要目的是在保证高质量视觉效果的前提下最大限度地降低码率,即实现压缩。传统的图像/视频编码技术主要针对空间域冗余、时间域冗余以及统计冗余进行压缩编码,这一类编码技术以增加编码端计算复杂度为代价来获取编码性能的提高,如H.264/AVC等,其性能提升速度已日趋缓慢。近年来,研究人员开始尝试将人体感知、图形学和视觉系统特性应用到视频编码框架。这里我们将利用人类视觉系统(HumanVisualSystem,HVS)的视觉特征、非线性特性和心理效应来进行提高压缩效率的视频编码技术定义为感知视频编码(PerceptualVideoCoding,PVC)。如今我国的数字媒体产业迅猛发展,年均产值已超万亿元,这些事实无一不表明,音视频编解码标准的地位日趋重要。目前,针对下一代视频编码标准HEVC的研究工作正在如火如荼的进行着,国内外众多研究机构和专家学者对本领域进行了大量的研究和探讨。HEVC提案的征集,为感知视频编码技术的研究提供了一个良好的契机。作为一个新的多学科交叉的编码技术,PVC将有效地促进现有视频编码技术的进一步发展,具有极其重要的应用和理论研究意义。目前,国际上的数字高清视频制式的主流是1080i/1080p,其分辨率为1920×1080,而未来超高清晰度电视(SuperHi-Vision)的图像分辨率则高达7680×4320。面对有限的传输带宽和存储容量,必须对海量的高清/超高清视频数据采用更为高效的压缩编码。最新的HEVC测试模型(HEVCTestModel,HM)采用了一系列的新技术来提高系统的整体压缩性能。由于采用了更加复杂的设计,HEVC的压缩比相对H.264/AVC提高了40%,编码时间为原来的0.9~2.4倍。如:在图像编码结构中引入了大尺寸块以及灵活的子块划分机制,支持更大尺寸、不对称的运动分割;采用了任意方向帧内预测算法(ArbitraryDirectionIntra,ADI),引入了更多的预测模式和方向。帧间预测引入了运动矢量竞争机制,以提高帧间预测的精度;变换量化中加入了新的DST和旋转变换;熵编码则采用了自适应系数扫描技术,放弃了CAVLC,而只保留CABAC等。通过对人眼视觉特性的生理学和心理学实验,研究人员发现人眼对事物的观察受到掩蔽效应的影响,包括:频带掩蔽效应、图像模式掩蔽效应、亮度掩蔽效应和时空掩蔽效应等。通过将这些视觉特性引入到视频编码,形成了基于视觉感知机理的视频编码,主要包括基于最小可察觉失真(JustNoticeableDistotion,JND)模型的视频编码、基于感兴趣区域的视频编码、基于中央凹的视频编码及基于主观评价准则的视频编码等。下面对现有的基于上述JND模型的视频编码以及基于感兴趣区域的视频编码分别进行说明:(1)JND模型JND模型通过一个阈值量化表现视觉感知冗余,低于这个阈值的改变,人眼无法察觉。该模型考虑了人类在感知图像信息过程中的多通道、非线性及多种视觉掩蔽特性,能够使最终获取的客观测量结果与主观评价结果具有高度的一致性。若能在图像编码过程中充分利用上述掩蔽效应,则可以在主观感觉图像失真相同的条件下允许更大的实际失真,从而根据Shannon率失真理论,采用更低的编码比特率同时图像的主观质量保持不变。至今为止,提出的JND模型大概被分为两类:像素域的JND模型和基于变换域的JND模型。1995年,Chou等首次提出的空间JND模型,将灰度图像中对比掩蔽和亮度自适应掩蔽的影响纳入JND模型中,对这两类掩蔽效应采用“二选一”的方式,将计算得到的两种掩蔽效应中数值较大者作为最终的JND阈值。但简单取亮度自适应掩蔽和对比掩蔽二者最大值的方法并不科学。Chou扩展空间JND模型,加入时域掩藏效应,将时间域作为一个扩展因子,得到了一个适用于视频的JND模型。生理、心理学实验证明,视网膜上感光细胞的分布不均,在中央凹区域视锥细胞分布浓密,敏感性高,随着与中央区域的距离增大,感光细胞密度减小,相应的敏感性也就减小。所以基于这个事实,Chen提出了FJND(FoveatedJND)模型,该模型首先设定多个注意点,然后计算出其Foveation信息,然后,将Foveation信息作为传统的JND模型的伸缩尺度,以提高JND模型的精度。但是像素域方法没有结合描述人类视觉对每个频率段敏感度的对比灵敏度函数(ContrastSensitivityFunction,CSF),不能充分把人眼的视觉特性加入到模型中。于是,Ahumada和Peterson最早尝试在变换域进行JND建模,他们研究了由DCT分解和图像亮度变化引起的空域掩蔽效应并进行了JND建模。JPEG图像编码标准中,DCTune算法成功地采用该模型对量化矩阵进行优化,明显提高了同码率下的图像质量。在视频编码中,由于大多数编码压缩方案都基于DCT变换,所以近年来DCT域的JND模型引起了很多研究者的兴趣。不过由于人类对视觉系统特性还没有完全认识清楚,现有的DCT域JND模型仍然不能和人眼特性完全吻合,精确度仍需要不断改进和提高。(2)视觉显著性区域模型视觉注意机制作为视觉系统的一项重要的心理调节机制,是人类从外界输入的大量信息中选择特定感兴趣区域的一个关键手段。由于可以在一定程度上实现有选择性地获取所关注目标的显著(Saliency)信息,从而大量降低信息处理量。其研究现状如下:Itti和Koch等提出的算法被认为是目前最具代表的视觉注意计算模型。该算法将多种类型、多种尺度的视觉空间中通过“中心-周边”算子得到的显著性度量结果合成为一幅显著图(SaliencyMap),按照图中显著值由强到弱的顺序依次找到显著区域的位置,并结合一个固定尺寸,得到显著区域的范围。然而,现有的基于像素的视觉显著性区域检测算法通常都是一次计算一个像素的显著性,计算量大;有些算法还需要建立高维向量查找树来加速执行,这将使得算法的空间复杂度也相当高。因此很多视觉显著性区域检测算法仅仅只检测得到粗糙的视觉显著性结果。Hou等人和Guo等人的方法都是从分析图像频谱的角度计算图像中的显著性区域;Judd等人则是从机器学习的角度来获取图本文档来自技高网...
基于显著性和最小可察觉失真的感知视频编码方法

【技术保护点】
一种基于显著性和最小可察觉失真的感知视频编码方法,其特征在于包括以下步骤:步骤1、分别利用显著性监测算法和最小可察觉失真方法计算待处理视频帧图像的显著值S(k,i,j)和最小可察觉失真值JND(k,i,j),根据视频帧图像的显著值S(k,i,j)调整最小可察觉失真值JND(k,i,j),得到显著性最小可察觉失真阈值S‑JND(k,i,j),其中k表示视频序列的第k帧图像,i和j分别表示像素的横纵坐标;步骤2、根据显著性最小可察觉失真阈值S‑JND(k,i,j)对视频编码过程中的残差进行滤波,得到基于显著性和最小可察觉失真的感知视频编码。

【技术特征摘要】
1.一种基于显著性和最小可察觉失真的感知视频编码方法,其特征在于包括以下步骤:步骤1、分别利用显著性监测算法和最小可察觉失真方法计算待处理视频帧图像的显著值S(k,i,j)和最小可察觉失真值JND(k,i,j),根据视频帧图像的显著值S(k,i,j)调整最小可察觉失真值JND(k,i,j),得到显著性最小可察觉失真阈值S-JND(k,i,j),其中k表示视频序列的第k帧图像,i和j分别表示像素的横纵坐标;步骤2、根据显著性最小可察觉失真阈值S-JND(k,i,j)对视频编码过程中的残差进行滤波,得到基于显著性和最小可察觉失真的感知视频编码;所述步骤1的具体处理步骤为:步骤1.1、将视频帧图像进行色彩空间转换,由YUV色彩空间转换为CIEL*a*b*色彩空间;步骤1.2、对CIEL*a*b*色彩空间的帧图像进行显著性监测,按照如下方法获得每一像素的显著值S(k,i,j):(1)按100%、80%、50%、30%比例分别缩放图像,形成四种尺度图像;(2)将每一种尺度的图像分成7x7的块,块与块之间有50%的重叠;(3)根据下式计算块与块之间的相异度d(pi,pj):式中,pi和pj分别表示以第i个像素和第j个像素为中心的块,dcolor(pi,pj)表示CIEL*a*b*色彩空间下块pi和pj的欧氏距离,dposition(pi,pj)表示块pi和pj的位置欧氏距离,计算公式分别如下:式中Lli、Llj、ali、alj、bli、blj分别是第i个像素和第j个像素周围像素的CIEL*a*b*色彩空间的三个分量,l表示块中的像素编号,每个7x7的块中49个像素,编号从0~48,x和y分别表示像素i,j的横纵坐标;(4)像素i的显著性定义为:式中K...

【专利技术属性】
技术研发人员:王琳王辉淇于洋李敬娜
申请(专利权)人:国家广播电影电视总局广播科学研究院北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1