System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于注意力机制的视觉诱发晕动症评估方法,属于数字图像处理。
技术介绍
1、与二维视频相比,虚拟现实(vr)视频包含了深度信息,可以为观众带来更真实的视觉效果与沉浸式的体验。近年来,随着虚拟现实技术的广泛应用,例如3d电影和虚拟现实游戏,这些技术已经深刻影响并转变了人们的日常生活。作为一项迅速发展的技术,虚拟现实技术面临着诸多挑战。其中,最显著的问题之一便是在虚拟现实体验过程中,用户的视觉系统接收到运动信息,而身体却处于静止状态,这种视觉与前庭系统的不匹配可能导致用户出现头痛、眩晕乃至呕吐的症状,即所谓的视觉诱发晕动症。
2、如何构建视觉诱发晕动症评估模型,有效分类vr视频,使用户可以根据个人情况选择更符合其体验需求的视频是一个越来越受关注的问题。vr视频中可以评估视觉诱发晕动症的主要因素为:光流强度、运动轨迹、纹理信息、关注区域、时间信息等。通过建立结合注意力机制的视野流与运动流的双流评估模型可以有效评估视觉诱发晕动症程度。
技术实现思路
1、(一)解决的技术问题
2、本专利技术的目的在于提供一种基于注意力机制的视觉诱发晕动症评估方法,其观看vr视频时根据视频内容和提取的光流信息评估视觉诱发晕动症程度,结合注意力机制有效分类vr视频,使用户可以根据个人情况选择更符合其体验需求的视频。
3、(二)技术方案
4、本专利技术技术方案是这样实现的:一种基于注意力机制的视觉诱发晕动症评估方法,首先根据vr视频提取光流视频,再对
5、步骤1:根据vr视频提取光流视频并进行预处理,包括如下子步骤:
6、步骤101:对vr视频的连续帧提取光流图,公式如下所示:
7、
8、其中,f(x,y,t)表示在时间t及位置(x,y)处的光流向量。vx和vy分别是光流向量在x和y方向的分量,代表了图像中像素点在这两个方向上随时间的移动速度。和分别表示位置(x,y)在图像序列时间上的变化率。
9、步骤102:将vr视频和光流视频拆分为n块大小相同的patch,计算如下:
10、n=hw/p2
11、其中,视频输入为x∈rh×w×f,h和w为输入视频帧的长和宽,这里将视频输入帧调整为224×224,f表示视频的帧采样大小,p表示拆分patch的长和宽,n为拆分patch的数量。将输入视频拆解后,可以表示为向量p=1,…,n;t=1,…,f。
12、步骤103:将p相同t不同的patch归为一类,命名为time patch,将p不同t相同的patch归为一类,命名为time patch。
13、步骤2:对vr视频和光流视频进行独立的特征提取与评估,包括如下子步骤:
14、步骤201:将time patch输入到网络的embeding模块中,方便之后计算vr视频和光流视频的时间序列相关性,并添加位置编码信息,如下式所示:
15、
16、其中为输出结果,命名为token,0表示当前网络的层数,p表示当前的patch数,t表示当前的帧数,p=1,…,n;t=1,…,f;为一个可学习矩阵,p表示拆分patch的长和宽,为可学习的空间位置编码,d为patch的维度。
17、步骤202:将spac patch输入到网络的embeding模块中,方便之后计算vr视频和光流视频的空间序列相关性,并添加位置编码信息,如下式所示
18、
19、其中为输出结果,命名为token,0表示当前网络的层数,p表示当前的patch数,t表示当前的帧数,p=1,…,n;t=1,…,f;为一个可学习矩阵,p表示拆分patch的长和宽,为可学习的空间位置编码,d为patch的维度,为额外添加的位置编码,表示整体分类结果。
20、步骤203:将数据通过embeding模块进行预处理后,将数据输入倒网络模型的核心模块:encoder模块中。encoder模块由attention层和多层感知机(mlp)层共同组成。网络模型包含l层encoder,每层encoder模块包含2个attention模块和一个mlp模块。
21、步骤204:每个encoder层中的attention层计算方式为:
22、
23、attention(q,k,v)=av
24、其中,q,k,v为的集合,a为q和k的计算得到的自注意力分布。其中计算方式为:
25、
26、
27、
28、其中a=1,…,a表示在attention heads中的位置,l=1,…,l表示encoder层数,p=1,…,n表示当前视频帧中patch位置,t=1,…,f表示当前帧数,dh表示每个head的维度。
29、步骤205:合并所有head中的attention后,进行一个线性投影,送入多层感知机(mlp)中,解决attention模块无法解决的非线性问题。经过l层encoder模块后,取位置编码为0的为当前帧分类结果,对所有帧的分类融合,得出最终的分类结果:
30、
31、其中为输出结果,l表示当前网络的层数为最终层,p表示当前的patch数为最初,t表示当前的帧数,p=1,…,n;t=1,…,f;ln表示全连接层,mlp表示多层感知机,mean表示对多个结果求平均,得到最终的vr视频和光流视频的评估值。
32、步骤3:将vr视频结果和光流视频结果进行融合,从而得到最终vr视频的视觉诱发晕动症的评估结果。
33、步骤301:采用后端融合方式,将外观流网络和运动流网络的softmax输出进行加权平均融合来平滑各子网络结果,如下所示:
34、
35、其中t为子网络数量,xi为对应子网络输出的分类结果,wi为对应的网络权重,且wi≥0,
36、(三)有益效果
37、本申请通过融合transformer架构,分别针对时间序列和空间序列构建了自注意力机制,以捕获序列元素间的相互依赖性;通过后端融合技术,实现了双流网络输出的整合,既保持了计算效率,又显著提高了模型的评估准确度。
本文档来自技高网...【技术保护点】
1.一种基于注意力机制的视觉诱发晕动症评估方法,其特征在于:选取Padmanaban立体视频数据库中的VR视频进行评估,具体步骤如下;
2.根据权利要求1所述的一种基于注意力机制的视觉诱发晕动症评估方法,其特征在于:所述步骤1包括如下子步骤,步骤101:对VR视频的连续帧提取光流图,公式如下所示:
3.根据权利要求1所述的一种基于注意力机制的视觉诱发晕动症评估方法,其特征在于:所述步骤2包括如下子步骤,步骤201:将Time patch输入到网络的Embeding模块中,方便之后计算VR视频和光流视频的时间序列相关性,并添加位置编码信息,如下式所示:
4.根据权利要求1所述的一种基于注意力机制的视觉诱发晕动症评估方法,其特征在于:所述步骤3包括如下子步骤,步骤301:采用后端融合方式,将外观流网络和运动流网络的Softmax输出进行加权平均融合来平滑各子网络结果,如下所示:
【技术特征摘要】
1.一种基于注意力机制的视觉诱发晕动症评估方法,其特征在于:选取padmanaban立体视频数据库中的vr视频进行评估,具体步骤如下;
2.根据权利要求1所述的一种基于注意力机制的视觉诱发晕动症评估方法,其特征在于:所述步骤1包括如下子步骤,步骤101:对vr视频的连续帧提取光流图,公式如下所示:
3.根据权利要求1所述的一种基于注意力机制的视觉诱发晕动症评估方法,其特征在于:所述步...
【专利技术属性】
技术研发人员:权巍,蔡永青,李林轩,李华,韩成,蒋振刚,丁岩,
申请(专利权)人:长春理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。