【技术实现步骤摘要】
一种基于强化学习的立体图像视觉舒适度增强方法
本专利技术涉及图像处理以及计算机视觉
,特别是一种基于强化学习的立体图像视觉舒适度增强方法。
技术介绍
立体三维(S3D)媒体内容的舒适度调节一向是计算机视觉领域的研究热点。然而,当人们在当前的立体显示器上观看立体图像时,不自然的立体图像可能使人眼出现各种视觉疲劳症状,如眼睛疲劳、头痛、对焦困难和恶心,这影响了用户对立体内容的体验,阻碍了3D服务的推广。过去二十年的研究已经确定了导致视觉不适的几个关键因素,包括水平视差过大、视差快速变化、立体图像左右视图不匹配等。与之同时也涌现出一批提高视觉舒适度的研究工作。提高立体图像/视频的视觉舒适度的工作可以分为两类,第一类是立体图像几何约束,现有的方法根据是否使用摄像机内外参数又可以分为相机标定方法和无标定校正方法。通过确定一对单应性矩阵并利用它们对两幅图像进行变换,使对应的极线重合并平行于其中一个图像轴。第二类是立体图像/视频视差分布调整,可以分成两种方法:视差重映射和视差平移。Yan等人提出了一个视差重映射方法,根据实际 ...
【技术保护点】
1.一种基于强化学习的立体图像视觉舒适度增强方法,其特征在于,包括以下步骤:/n构造两种数据集,分别为单一变换数据集以及混合变换数据集;/n设计立体图像几何校正网络,依次采用不同的单一变换数据集训练该网络分别得到不同的立体图像几何校正工具;/n设计视觉舒适度增强模型,利用混合变化数据集并采用强化学习算法来训练该视觉舒适度增强模型;/n将待调整的立体图像输入训练好的视觉舒适度增强模型中,以提高其视觉舒适度。/n
【技术特征摘要】
1.一种基于强化学习的立体图像视觉舒适度增强方法,其特征在于,包括以下步骤:
构造两种数据集,分别为单一变换数据集以及混合变换数据集;
设计立体图像几何校正网络,依次采用不同的单一变换数据集训练该网络分别得到不同的立体图像几何校正工具;
设计视觉舒适度增强模型,利用混合变化数据集并采用强化学习算法来训练该视觉舒适度增强模型;
将待调整的立体图像输入训练好的视觉舒适度增强模型中,以提高其视觉舒适度。
2.根据权利要求1所述的一种基于强化学习的立体图像视觉舒适度增强方法,其特征在于,所述构造两种数据集,分别为单一变换数据集以及混合变换数据集具体包括以下步骤:
步骤S11:将多个公共数据集的所有舒适的立体图像进行随机抽样,形成高质量立体图像数据集;
步骤S12:对高质量立体图像数据集中每一幅高质量立体图像先缩放到224×224大小,使计算设备能够承担神经网络的计算量;
步骤S13:划分大、中、小三种尺度,将缩放后的立体图像的左右视图分别进行不同尺度的上下左右平移、顺/逆时针旋转、缩放、透视变换以形成视觉不适的立体图像,随机对立体图像添加噪声,并重复上述步骤来扩大数据集的数据量,最终获得12组单一变换数据集和1组混合变换数据集;其中,单一变换数据集由大中小三种尺度之一和平移、旋转、缩放、透视变换四种操作之一组合而成,混合变换数据集由所有尺度和所有操作组合而成。
3.根据权利要求1所述的一种基于强化学习的立体图像视觉舒适度增强方法,其特征在于,所述设计立体图像几何校正网络具体为:
设计一个具有上下2个支路的卷积神经网络,分别对应224*224大小的左视图、右视图作为输入,每个支路的前五个卷积层学习一个视图特征,然后将下支的特征添加到上支中,将上支的特征添加到下支中,最后在两个支路上各接上3层卷积层去学习一个3×3的单应性矩阵用于视图的几何校正;
每个支路上的前五个卷积层大小分别为:第一层卷积核大小为9×9,第二层卷积核大小为7×7,第三层卷积核大小为5×5,第四层和第五层卷积核大小都是3×3;第一到第四层每一层卷积层后同时接一层3×3大小的最大池化层,第五层卷积层后接一层3×3大小的平均池化层;池化操作通过保留输入的局部池化区域的最大值和平均值,起到数据降维的作用。
4.根据权利要求1所述的一种基于强化学习的立体图像视觉舒适度增强方法,其特征在于,所述依次采用不同的单一变换数据集训练该网络分别得到不同的立体图像几何校正工具具体为:
使用12组单一变换数据集分别训练12个立体图像几何校正工具,在每个立体图像几何校正工具的训练阶段,使用均方差误差作为损失函数,计算公式为:
式中,N是同时进入训练的一个批次立体图像的数量,IL,IR代表输入立体图像的左、右视图,hL,hR代表输出的左、右单应性矩阵,f(IL;hL),f(IR;hR)代表几何校正后的左、右视图结果;该图像几何校正工具通过基于梯度方差的Adam方法,利用反向传播来最小化损失函数,学习到模型的最优参数。
5.根据权利要求1所述的一种基于强化学习的立体图像视觉舒适度增强方法,其特征在于,所述设计视觉舒适度增强模型具体为:
所述视觉舒适度增强模型包括特征提取模块、动作决策模块、质量评估模块以及视差分布调整网络;
所述特征提取模块用以提取输入的立体图像左右视图的卷积特征、纹理特征LBP以及视差图梯度特征HOG,所述动作决策模块将特征提取模块输出的卷积特征、纹理特征LBP、视差图梯度特征HOG以及上一步决策的序号的one-hot编码作为输入,输出一个13维的决策向量(q0,q1,q2,...q12),其中qi表示第i+1种操作对应的期望回报,值越大代表操作越优,i=0~12;根据决策向量,并采用下式选择出对应当前立体图像的左右图像几何校正工具:
actionn=argmaxaQ(staten,a,ω);
式中,staten表示执行第n步操作前的状态,actionn表示第n步所选择的决策序号,对应12个立体图像几何校正工具和结束操作中的一个,Q表示包含特征提取模块与动作决策模块的网络,ω表示该网络的参数,a表示决策序号,其值为0至12中的一个,Q(staten,a,ω)表示在状态为staten时,参数为ω的Q网络输出的决策向量(q0,q1,q3,...q12)中下标为a的数值qa,因此actionn是通过选择决策向量中的最大数值及其对应的下标来确定的;
将当前左右视图输入当前选择的立体图像几何校正工具,输出2个3...
【专利技术属性】
技术研发人员:牛玉贞,郑清炀,刘文犀,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。