基于双层注意的多分数立体视频质量评价方法技术

技术编号：40213194 阅读：5 留言：0更新日期：2024-02-02 22:22

本发明专利技术提出基于双层注意的多分数立体视频质量评价方法，包括以下步骤；步骤S1：采用二维视频质量评价模型分别预测左视图及右视图的视频质量，将其预测分数归一化并存储；步骤S2：对立体视频的左、右视图进行裁剪以便于对视频进行特征编码；步骤S3：将左、右视图对应的视频帧分别输入特征提取深度神经网络，并对神经网络用预测分数进行监督训练；步骤S4：模拟双眼融合机制，使用卷积将左、右视图对应的视频帧在特征提取深度神经网络中不同层级的特征融合，设计双层注意机制增强对失真像素的关注；使用3D卷积和池化操作回归，预测出整体视频的质量分数；本发明专利技术能够使双眼融合更加符合人眼视觉特性，使得质量评价模型获取的视频失真信息更加全面。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，尤其是基于双层注意的多分数立体视频质量评价方法。

技术介绍

1、视频质量评估即video quality assessment(vqa)。其主要任务是给定一个视频片段，预测人类对视频片段感知质量。近年来，3d视频已成为传递沉浸式、引人入胜视觉体验的一种强大工具。相比传统的平面视频，3d视频使用三维技术创造更真实、生动的观看体验，增强了观众对深度和空间的感受。苹果公司推出的vr眼镜无疑将推动3d视频领域的发展。该产品不仅能满足观看3d视频的需求，还配备了先进的传感器，为3d视频的创作提供了条件，能够激发更多内容创作者和开发者利用这项技术制作更加精彩和多样化的3d视频。随着技术的不断发展和完善，3d视频的应用领域和市场需求将会进一步扩大，为用户提供更加丰富多样的视觉体验。

2、目前神经科学研究者对人类视觉神经通路和视觉皮层的研究已充分证明了大脑中存在的立体视觉感知具有层次效应，即从低级视觉皮层到高级视觉皮层(v1-v5)，在高级视觉皮层中存在信息融合现象，在此基础上已经有人提出了模拟双眼融合的模型。然而，双眼融合和双眼竞争是人类视觉系统中两个密切相关但不同的概念。当两只眼睛同时观察同一物体时，它们在各自的视网膜上形成该物体的两个像，然后分别经过两侧视神经传输到皮层视中枢的同一区域，最终融合成完整、单一的物象知觉体验。在这主流的框架中，怎样让模型更加符合人眼视觉特性以及提升对失真信息的感知是本专利技术解决的问题。因此，本专利技术采用多分数的方法来对模型进行监督训练，采用双层注意机制加强对失真信息的关注。

技术实现思路

1、本专利技术提出基于双层注意的多分数立体视频质量评价方法，能够使双眼融合更加符合人眼视觉特性，使得质量评价模型获取的视频失真信息更加全面。

2、本专利技术采用以下技术方案。

3、基于双层注意的多分数立体视频质量评价方法，包括以下步骤；

4、步骤s1：采用二维视频质量评价模型分别预测左视图及右视图的视频质量，将其预测分数归一化并存储；

5、步骤s2：所述立体视频由专业设备采集，立体视频的失真特征为均匀失真，对立体视频的左、右视图进行裁剪以便于对视频进行特征编码；

6、步骤s3：将左、右视图对应的视频帧分别输入特征提取深度神经网络，并对特征提取神经网络用步骤s1中的预测分数进行监督训练；

7、步骤s4：模拟双眼融合机制，使用卷积将左、右视图对应的视频帧在特征提取深度神经网络中不同层级的特征融合，设计双层注意机制增强对失真像素的关注；然后使用3d卷积和池化操作回归，进而预测出整体视频的质量分数。

8、所述步骤s1具体包括以下步骤：

9、步骤s11：选用预测能力在阈值以上的二维视频质量评价模型对左视图及右视图视频进行评价，形成预测分数；

10、步骤s12：将预测分数归一化并存储在表格中，以便后续使用。

11、步骤s11的具体操作方法为：使用已在现有大型视频质量评价数据库训练好，能达到plcc＝0.877，srocc＝0.876的结果的网络作为二维视频质量评价模型进行预测，具体操作方式如下：

12、设输入的视频比较大，则首先进行网格小块采样gms，将第frame个视频帧切割成相同大小的7*7均匀网格，以公式表示为

13、

14、其中gframe表示视频帧划分的网格，表示第block_i行和第block_j列中的网格；

15、统一网格划分过程的形式化如下：

16、

17、其中，h_v和w_v表示视频的高度和宽度，vframe表示视频的每一帧；

18、然后采用随机贴片采样的方法，对于切割后的网格从中裁剪一个大小为16*16像素的小贴片贴片采样过程如下：

19、

20、式中，random表示随机裁剪方法，个视频帧裁剪的贴片组合拼接成的一张图片；对于每一个视频帧裁剪相同的位置，组成视频贴片；

21、最后，将上述的视频贴片作为输入，通过swin-tiny基础网络，得到预测分数。

22、所述步骤s2中，对左、右视图进行裁剪到224*224的长宽，以便于对视频进行特征编码，具体为：

23、步骤s21：对于从专业设备采集来的视频，利用视频裁剪方法，将每一个视频帧在中间区域裁剪出一个224*224的图像块，拼成整个视频；

24、步骤s22：将视频块采用均匀抽帧的方法，均匀抽取50个帧组成新的视频块以固定网络的输入；所述立体视频由专业设备采集，立体视频的失真特征为均匀失真，则该视频块的质量视同为代表整个视频的质量。

25、所述步骤s3具体为：

26、步骤s31：将左右视频分别输入多尺度的特征提取网络，该网络由3个2d卷积块和2个3d卷积块组成，在第一、二个2d卷积块后有一个3*3的池化层，在3d卷积块后有3d池化层，具体表示为：

27、featurelevel＝pool2d/3d(act(conv2d/3d(featurelevel-1))) 公式四；

28、其中featurelevel表示第level层的特征，pool2d/3d表示2d或3d池化操作，act表示激活层leakyrelu，conv2d/3d表示2d或3d卷积操作；

29、步骤s32：每个视频均为由单个视频帧经过2d卷积，编码后连接成的整个视频，再通过3d卷积。

30、所述步骤s4具体为：

31、步骤s41：将左右视频对应多尺度特征提取网络中每一个2d卷积层后获取特征，采用卷积将左右特征融合；

32、步骤s42：融合后的视频帧的特征拼接按视频序列进行拼接；

33、步骤s43：设计双层注意机制用于加强对失真进行从小块到像素级别的关注；

34、步骤s44：通过3层3d卷积和2层池化操作回归，采用平均绝对误差损失计算步骤s3所述单视图的质量和融合后整体的质量分数相较于真实值的预测差距之和，进行监督训练，得到多分数立体视频质量评价模型。

35、所述双层注意机制操作如下：

36、给定一个二维输入特征图x∈rh_f,w_f,t_f,c，首先将其划分为s×s×s非重叠区域，这样每个区域都包含特征向量，其中h_f、w_f和t_f分别表示特征图的高度、宽度、时间轴。然后，推导出查询q，键k，值v张量：

37、q＝xrwq,k＝xrwk,v＝xrwv 公式五；

38、ar＝qr(kr)t 公式六；

39、ir＝topkindex(ar) 公式七；

40、其中，是x重塑而来的特征向量，wq,wk,wv分别是查询、键、值的投影权值；qr，kr为派生出区域级的查询和键，通过分别对q和k应用每个区域的平均值；邻接矩阵ar中的条目度量了两个区域在语义上的关联程度；topkindex表示取前k个大的值的操作，i本文档来自技高网...

【技术保护点】

1.基于双层注意的多分数立体视频质量评价方法，其特征在于：包括以下步骤；

2.根据权利要求1所述的基于双层注意的多分数立体视频质量评价方法，其特征在于：所述步骤S1具体包括以下步骤：

3.根据权利要求2所述的基于双层注意的多分数立体视频质量评价方法，其特征在于：步骤S11的具体操作方法为：使用已在现有大型视频质量评价数据库训练好，能达到PLCC＝0.877，SROCC＝0.876的结果的网络作为二维视频质量评价模型进行预测，具体操作方式如下：

4.根据权利要求1所述的基于双层注意的多分数立体视频质量评价方法，其特征在于：所述步骤S2中，对左、右视图进行裁剪到224*224的长宽，以便于对视频进行特征编码，具体为：

5.根据权利要求1所述的基于双层注意的多分数立体视频质量评价方法，其特征在于：所述步骤S3具体为：

6.根据权利要求1所述的基于双层注意的多分数立体视频质量评价方法，其特征在于：所述步骤S4具体为：

7.根据权利要求6所述的基于双层注意的多分数立体视频质量评价方法，其特征在于：所述双层注意机制操作如下：

...

【技术特征摘要】

1.基于双层注意的多分数立体视频质量评价方法，其特征在于：包括以下步骤；

2.根据权利要求1所述的基于双层注意的多分数立体视频质量评价方法，其特征在于：所述步骤s1具体包括以下步骤：

3.根据权利要求2所述的基于双层注意的多分数立体视频质量评价方法，其特征在于：步骤s11的具体操作方法为：使用已在现有大型视频质量评价数据库训练好，能达到plcc＝0.877，srocc＝0.876的结果的网络作为二维视频质量评价模型进行预测，具体操作方式如下：

4.根据权利要求...

【专利技术属性】
技术研发人员：郭文忠，张恺睿，柯逍，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人