当前位置: 首页 > 专利查询>宁波大学专利>正文

基于双目感知特性的立体视觉内容舒适度评价方法技术

技术编号:38637065 阅读:32 留言:0更新日期:2023-08-31 18:32
本发明专利技术公开了一种基于双目感知特性的立体视觉内容舒适度评价方法,其从大脑视觉信息传递机制出发,结合实际观看环境和设备,对该机制进行深入分析与建模,通过循环生成对抗网络,生成原立体全景左视频在右眼视网膜右侧的新视点,以及原立体全景右视频在左眼视网膜左侧的新视点,将新生成的视点与原立体全景视频相加组合形成新的左右融合视点来模拟自然观看环境中大脑的视觉信息处理过程;实验结果表明,从左融合视点和右融合视点中提取内容感知特征且提取的内容感知特征更有效,从而能够有效预测出观看立体全景视频时的不舒适程度。效预测出观看立体全景视频时的不舒适程度。效预测出观看立体全景视频时的不舒适程度。

【技术实现步骤摘要】
基于双目感知特性的立体视觉内容舒适度评价方法


[0001]本专利技术涉及一种立体视觉内容舒适度评价技术,尤其是涉及一种基于双目感知特性的立体视觉内容舒适度评价方法。

技术介绍

[0002]在大脑视觉信息传递通路模型中,人的左右眼各有一个视网膜,每个视网膜又可分为左侧视野和右侧视野。当观看到某一物体时,该物体分别在左右视网膜相应区域成像,可以简单理解成有四条视线进入大脑视觉信息传递通路,然后在经过视神经、视交叉、视束的传递到达外侧膝状体。外侧膝状体可以分为六层,1、2层为大细胞层(Magnocellular Pathway,M层);3、4、5、6层为小细胞层(Parvocellular Pathway,P层)。在外侧膝状体的六层结构中,每层结构接收来自一只眼睛的视觉信息输入,其中,1、4、6层视觉信息来自同一只眼;2、3、5层视觉信息来自另一只眼,继而完成左右眼视网膜同侧视野视觉信息在大脑另一侧的视觉信息传递过程。基于以上对大脑视觉信息传递通路模型的分析,在自然观看环境中,左眼视网膜的右侧视野视觉信息和右眼视网膜的右侧视野视觉信息,被打包在一起,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于双目感知特性的立体视觉内容舒适度评价方法,其特征在于包括如下步骤:步骤1:取一个立体全景视频数据库作为基准数据库;然后将基准数据库分成训练数据库和测试数据库;其中,立体全景视频数据库中包含Num个立体全景视频及其主观评分,训练数据库中包含的立体全景视频的总个数为Num1个,测试数据库中包含的立体全景视频的总个数为Num2个,Num=Num1+Num2,Num表示基准数据库中包含的立体全景视频的总个数,Num≥100,每个立体全景视频的左视点视频中包含T帧视频帧,每个立体全景视频的右视点视频中包含T帧视频帧,T≥300,视频帧的宽度为W且高度为H;步骤2:构建基于双目感知特性的立体视觉内容舒适度评价模型,其包括双目视点融合感知模块、特征提取模块、四个全局池化模块、四个特征向量降维模块、四个时域池化模块;双目视点融合感知模块主要由CycleGAN网络组成,特征提取模块主要由两个ResNet网络模型组成,四个特征向量降维模块的结构相同,主要由依次连接的第一全连接层、第二全连接层、门控循环单元、第三全连接层组成;步骤3:构建用于训练双目视点融合感知模块中的CycleGAN网络的左视点训练集和右视点训练集;然后将左视点训练集和右视点训练集同时输入到CycleGAN网络中进行训练,网络训练结束后得到CycleGAN网络模型;其中,左视点训练集包含Num
train
张左视点图像,右视点训练集包含Num
train
张右视点图像,Num
train
≥1000,左视点图像和右视点图像的大小为480
×
480;步骤4:令L
i
表示一个立体全景视频的左视点视频中的第i帧视频帧,令R
i
表示同一个立体全景视频的右视点视频中的第i帧视频帧,在步骤3的基础上,将L
i
和R
i
作为双目视点融合感知模块的输入数据,CycleGAN网络模型同时接收L
i
和R
i
,CycleGAN网络模型生成L
i
相应的右眼视网膜右侧视野的新视点视频帧和R
i
相应的左眼视网膜左侧视野的新视点视频帧将与R
i
相加得到右融合视点视频帧F
iR
,将N
iL
与L
i
相加得到左融合视点视频帧F
iL
,双目视点融合感知模块的输出数据为F
iL
和F
iR
;其中,1≤i≤T,和F
iL
和F
iR
的宽度为W且高度为H;步骤5:在步骤4的基础上,将F
iL
和F
iR
作为特征提取模块的输入数据,第1个ResNet网络模型接收F
iL
,第2个ResNet网络模型接收F
iR
,第1个ResNet网络模型输出F
iL
所对应的两种不同网络深度的左融合视点内容感知信息特征图,将F
iL
所对应的第一种网络深度的所有左融合视点内容感知信息特征图构成的集合记为F
iLF4
,将F
iL
所对应的第二种网络深度的所有左融合视点内容感知信息特征图构成的集合记为F
iLF5
,第2个ResNet网络模型输出F
iR
所对应的两种不同网络深度的右融合视点内容感知信息特征图,将F
iR
所对应的第一种网络深度的所有右融合视点内容感知信息特征图构成的集合记为F
iRF4
,将F
iR
所对应的第二种网络深度的所有右融合视点内容感知信息特征图构成的集合记为F
iRF5
,即特征提取模块的输出数据为F
iLF4
和F
iLF5
、F
iRF4
和F
iRF5
;其中,两种不同网络深度是指ResNet网络模型中的conv4_x层的深度和conv5_x层的深度,F
iLF4
和F
iRF4
各自中的特征图的宽度为且高度为通道数为1024,F
iLF5
和F
iRF5
各自中的特征图的宽度为且高度为通道数为2048;
步骤6:在步骤5的基础上,第1个全局池化模块的输入数据为F
iLF4
,第1个全局池化模块的输出数据为F
iLF4
对应的一个用于回归帧分数的特征向量f
ilf4
,第2个全局池化模块的输入数据F
iLF5
,第2个全局池化模块的输出数据为F
iLF5
对应的一个用于回归帧分数的特征向量f
ilf5
,第3个全局池化模块的输入数据F
iRF4
,第3个全局池化模块的输出数据为F
iRF4
对应的一个用于回归帧分数的特征向量f
irf4
,第4个全局池化模块的输入数据F
iRF5
,第4个全局池化模块的输出数据为F
iRF5
对应的一个用于回归帧分数的特征向量f
irf5
;其中,f
ilf4
和f
irf4
的维数为3072
×
1,f
ilf5
和f
irf5
的维数为6144
×
1;步骤7:在步骤6的基础上,对于第1个特征向量降维模块,第1个特征向量降维模块的输入数据为f
ilf4
,第一全连接层接收f
ilf4
,第一全连接层输出一个维数为1024
×
1的特征向量,第二全连接层接收第一全连接层输出的特征向量,第二全连接层输出一个维数为128
×
1的特征向量,门控循环单元接收第二全连接层输出的特征向量,门控循环单元输出一个维数为32
×
1的特征向量,第三全连接层接收门控循环单元输出的特征向量,第三全连接层输出一个数值,将这个数值作为一个初步帧不舒适分数即第1个特征向量降维模块的输出数据为对于第2个特征向量降维模块,第2个特征向量降维模块的输入数据为f
ilf5
,第一全连接层接收f
ilf5
,第一全连接层输出一个维数为1024
×
1的特征向量,第二全连接层接收第一全连接层输出的特征向量,第二全连接层输出一个维数为128
×
1的特征向量,门控循环单元接收第二全连接层输出的特征向量,门控循环单元输出一个维数为32
×
1的特征向量,第三全连接层接收门控循环单元输出的特征向量,第三全连接层输出一个数值,将这个数值作为一个初步帧不舒适分数即第2个特征向量降维模块的输出数据为对于第3个特征向量降维模块,第3个特征向量降维模块的输入数据为f
irf4
,第一全连接层接收f
irf4
,第一全连接层输出一个维数为1024
×
1的特征向量,第二全连接层接收第一全连接层输出的特征向量,第二全连接层输出一个维数为128
×
1的特征向量,门控循环单元接收第二全连接层输出的特征向量,门控循环单元输出一个维数为32
×
1的特征向量,第三全连接层接收门控循环单元输出的特征向量,第三全连接层输出一个数值,将这个数值作为一个初步帧不舒适分数即第3个特征向量降维模块的输出数据为对于第4个特征向量降维模块,第4个特征向量降维模块的输入数据为f
irf5
,第一全连接层接收f
irf5
,第一全连接层输出一个维数为1024
×
1的特征向量,第二全连接层接收第一全连接层输出的特征向量,第二全连接层输出一个维数为128
×
1的特征向量,门控循环单元接收第二全连接层输出的特征向量,门控循环单元输出一个维数为32
×
1的特征向量,第三全连接层接收门控循环单元输出的特征向量,第三全连接层输出一个数值,将这个数值作为一个初步帧不舒适分数即第4个特征向量降维模块的输出数据为其中,第一全连接层的神经元个数为1024,第二全连接层的神经元个数为128,第三全连接层的神经元个数为1;步骤8:将立体全景视频的左视点视频或右视点视频分成T个帧组,第1个帧组由第1帧视频帧作为起始帧的连续12帧视频帧构成,第2个帧组由第2帧视频帧作为起始帧的连续12帧视频帧构成,依次类推,第T

11个帧组由第T

11帧视频帧作为起始帧的连续12帧视频帧构成,而第T

10个帧组由第T

10帧视频帧作为起始帧的剩余的所有视频帧与1帧补0帧构成,依次类推,第T个帧组由第T帧视频帧作为起始帧与11帧补0帧构成;然后在步骤7的基础上,第1个时域池化模块的输入数据为第1个特征向量降维模块输出的第i个帧组所对应的
所有初步帧不舒适分数,第1个时域池化模块输出一个具有人眼时间记忆效应的不舒适预测分数第2个时域池化模块的输入数据为第2个特征向量降维模块输出的第i个帧组所对应的所有初步帧不舒适分数,第2个时域池化模块输出一个具有人眼时间记忆效应的不舒适预测分数第3个时域池化模块的输入数据为第3个特征向量降维模块输出的第i个帧组所对应的所有初步帧不舒适分数,第3个时域池化模块输出一个具有人眼时间记忆效应的不舒适预测分数第4个时域池化模块的输入数据为第4个特征向量降维模块输出的第i个帧组所对应的所有初步帧不舒适分数,第4个时域池化模块输出一个具有人眼时间记忆效应的不舒适预测分数再计算第1个时域池化模块输出的立体全景视频的左融合视点视频对应的T个具有人眼时间记忆效应的不舒适预测分数的平均值,将该平均值作为立体全景视频的左融合视点视频的第一客观不舒适程度预测分数,记为立体全景视频的左融合视点视频的第一客观不舒适程度预测分数,记为计算第2个时域池化模块输出的立体全景视频的左融合视点视频对应的T个具有人眼时间记忆效应的不舒适预测分数的平均值,将该平均值作为立体全景视频的左融合视点视频的第二客观不舒适程度预测分数,记为计算第3个时域池化模块输出的立体全景视频的右融合视点视频对应的T个具有人眼时间记忆效应的不舒适预测分数的平均值,将该平均值作为立体全景视频的右融合视点视频的第一客观...

【专利技术属性】
技术研发人员:鲁子昂郁梅陈晔曜蒋刚毅
申请(专利权)人:宁波大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1