当前位置: 首页 > 专利查询>福州大学专利>正文

基于多层注意力和BiGRU的专业立体视频舒适度分类方法技术

技术编号:27977157 阅读:42 留言:0更新日期:2021-04-06 14:11
本发明专利技术涉及一种基于多层注意力和BiGRU的专业立体视频舒适度分类方法。包括以下步骤:1、对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;2、进行帧级处理得到初步帧级特征;3、进行帧级注意力处理得到最终帧级特征;4、进行镜头级处理得到初步镜头级特征;5、进行镜头级注意力处理得到最终镜头级特征;6、双流融合,使用通道注意力对上一步输出进行融合得到最终的隐藏状态;7、最终的隐藏状态经过分类网络输出分类概率并将专业立体视频分类为适合儿童观看或仅适合成人观看。8、将待测试视频集合中立体视频的左视图和对应的视差图输入训练好的模型中进行分类。本发明专利技术能有效分辨专业立体视频是否适合儿童观看。

【技术实现步骤摘要】
基于多层注意力和BiGRU的专业立体视频舒适度分类方法
本专利技术涉及图像和视频处理以及计算机视觉领域,特别一种基于多层注意力和BiGRU的专业立体视频舒适度分类方法。
技术介绍
立体视频又称为3D视频,不同于2D视频,其最重要的特点是具有深度信息,使得视频里景观的呈现不再局限于屏幕上。立体技术的蓬勃发展使得人们获得更好的观影体验的同时也带来了一些困扰,例如长时间观看不舒适的立体视频会带来头晕眩目、双眼干涩、恶心难受等感觉,这些不良反应会打击观众观看热度,甚至对观看者的生理健康造成影响。因此,如何评价立体影像的视觉舒适度质量成为人们关心的问题。影响立体视频视觉舒适的主要因素之一是视差,包括过大的水平视差、垂直视差以及快速变化的视差,另一个影响立体视频视觉舒适度的主要因素是视频内容,包括视频中的显著物体、视频的呈现方式以及物体的运动。目前的舒适度评价方法虽然取得了一些较好的效果,但这些工作普遍没有考虑儿童的双目间距。对于儿童而言,其双目间距比成人窄且双目融合机制还未同成人般发育成熟,成像在视网膜上的视差大小与成年人存在差异,这就导致了儿童本文档来自技高网...

【技术保护点】
1.一种基于多层注意力和BiGRU的专业立体视频舒适度分类方法,其特征在于,包括如下步骤:/n步骤S1、对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;/n步骤S2、帧级处理,将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理,使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知;/n步骤S3、帧级注意力处理,对每个镜头内帧间的时序关系进行加权求和得到最终的帧级特征;/n步骤S4、镜头级处理,使用循环神经网络双向门控循环单元对连续多个镜头的帧级特征进行感知,输出隐藏状态集合;/n步骤S5、镜头级注意力处理,对步骤S4输出的隐藏状态集合进行加权求...

【技术特征摘要】
1.一种基于多层注意力和BiGRU的专业立体视频舒适度分类方法,其特征在于,包括如下步骤:
步骤S1、对训练视频集合和待预测视频集合进行场景分割并通过预处理得到视差图;
步骤S2、帧级处理,将训练视频集合中的立体视频左视图和对应的视差图作为双流输入进行帧级处理,使用时间推理网络从多个时间尺度对每个镜头内帧间的时序关系进行感知;
步骤S3、帧级注意力处理,对每个镜头内帧间的时序关系进行加权求和得到最终的帧级特征;
步骤S4、镜头级处理,使用循环神经网络双向门控循环单元对连续多个镜头的帧级特征进行感知,输出隐藏状态集合;
步骤S5、镜头级注意力处理,对步骤S4输出的隐藏状态集合进行加权求和得到最终的镜头级特征;
步骤S6、双流融合,使用通道注意力网络对步骤S5输出的镜头级特征进行融合得到最终的隐藏状态;
步骤S7、最终的隐藏状态经过分类网络输出分类概率,并将专业立体视频分类为适合儿童观看或仅适合成人观看,从步骤S2至此即得到构建好的专业立体视频视觉舒适度分类模型;对所述专业立体视频视觉舒适度分类模型进行训练,训练过程中通过求解最小化损失函数,学习到专业立体视频视觉舒适度分类模型的最优参数,并保存训好的模型;
步骤S8、将待测试视频集合的左视图和对应的视差图输入训练好的模型中进行分类预测。


2.根据权利要求1所述的基于多层注意力和BiGRU的专业立体视频舒适度分类方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11、使用多媒体视频处理工具将视频分割成一帧帧图像;
步骤S12、利用镜头划分算法将立体视频划分为互不重叠的视频片段,每一个片段称为一个镜头;
步骤S13、将每一帧分割为左、右视图,使用SiftFlow算法计算左右视图中对应像素点的水平位移,作为视差图。


3.根据权利要求2所述的基于多层注意力和BiGRU的专业立体视频舒适度分类方法,其特征在于,所述步骤S2具体包括以下步骤:
步骤S21、对一个镜头内的帧进行稀疏采样,随机选取顺序的8帧;
步骤S22、从采样出来的8帧中随机抽取顺序的a帧使用预训练的时间推理网络分别对a帧之间的时序关系进行感知,且a的取值范围在2-8之间;给定视频V,两帧之间的时序关系T2(V)表示成下式:



其中,fi和fj分别表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception的基础特征提取网络提取出的视频第i帧和第j帧的特征,是一个两层的多层感知机,每层有256个单元,θ是多层感知机的参数;相似的,3-8帧间的时序关系T3(V)、T4(V)、T5(V)、T6(V)、T7(V)和T8(V)分别表示成下式:


















其中,fi、fj、fk、fl、fm、fn、fo和fp表示的是使用包括AlexNet、VGG、GoogLeNet、ResNet或BN-Inception的基础特征提取网络提取出的视频第i帧、第j帧、第k帧、第l帧、第m帧、第n帧、第o帧和第p帧的特征,表示用于提取a帧之间时序关系的一个两层的多层感知机,每层有256个单元,θ是多层感知机的参数;
步骤S23、将镜头内各种时间尺度的帧间时序关系进行拼接得到帧级特征Tall(V),计算公式如下所示:
Tall(V)=[T2(V),T3(V),T4(V),T5(V),T6(V),T7(V),T8(V)]。


4.根据权利要求3所述的基于多层注意力和BiGRU的专业立体视频舒适度分类方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31、首先对每个时间推理网络输出的a帧间的时序关系特征Ta(V)求隐层向量ua:
ua=tanh(WfTa(V)+bf)
其中Wf和bf为单层感知机的参数;
步骤S32、为了衡量各个时间尺度时间关系的重要性,对ua进行标准化操作:



其中uf是上下文向量,表示相应时间尺度的时序关系的重要性,该向量在训练时随机初始化并通过学习得到;
步骤S33、最终时间特征x为所求的帧级特征,计算公式如下:





5.根据权利要求4所述的基于多层注意力和BiGRU的专业立体视频舒适度分类方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S41、利用步骤S33,将连续s个镜头中每个镜头的帧级特征拼接;每一个镜头具有帧级特征x,则第t,t=1,2,...,s个镜头的帧级特征记为xt,帧级特征作为双向门控循环单元的输入;门控循环单元第t,t=1,2,...,s时刻的输入为前一时刻隐...

【专利技术属性】
技术研发人员:牛玉贞郑愈明彭丹泓
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1