一种基于VR设备的视频类型智能识别方法技术

技术编号:35354311 阅读:15 留言:0更新日期:2022-10-26 12:28
本发明专利技术公开了一种基于VR设备的视频类型智能识别方法,包括如下步骤,S1、对视频文件进行策略识别,获取策略识别结果;S2、对视频文件进行模型识别,获取模型识别结果;S3、判断策略识别结果和模型识别结果是否相同,若相同则将策略识别结果作为最终识别结果;若不相同,则将模型识别结果作为最终识别结果。优点是:能够快速高效准确的识别VR视频类型,能够方便视频播放器快速准确地渲染视频。频播放器快速准确地渲染视频。频播放器快速准确地渲染视频。

【技术实现步骤摘要】
一种基于VR设备的视频类型智能识别方法


[0001]本专利技术涉及计算机视觉
,尤其涉及一种基于VR设备的视频类型智能识别方法。

技术介绍

[0002]在VR视频播放场景中,有多种类型的视频,如180度3D、360度3D、ytb3D等等,VR设备需要知道视频属于哪种类型才能正确地渲染出符合人眼观看习惯的视频画面;而目前市面上现有的识别技术,大多是针对180度、360度、2D视频识别,无法对ytb、360度3D等视频类型进行识别,现有的识别技术并无法满足所有现有视频类型的识别需求。

技术实现思路

[0003]本专利技术的目的在于提供一种基于VR设备的视频类型智能识别方法,从而解决现有技术中存在的前述问题。
[0004]为了实现上述目的,本专利技术采用的技术方案如下:
[0005]一种基于VR设备的视频类型智能识别方法,包括如下步骤,
[0006]S1、对视频文件进行策略识别,获取策略识别结果;S1包括,
[0007]S11、对视频文件进行预处理:将视频文件去掉片头和片尾后截取两帧关键帧画面,保存为第一关键帧图片;
[0008]S12、判断第一关键帧图片是否为上下结构的视频;若是,则进入步骤S13;若否,则进入步骤S14;
[0009]S13、依次判断第一关键帧图片是否为360度视频和180度视频,若是360度视频,则返回该视频文件为360度视频上下3D,若是180度视频,则返回该视频文件为180度视频上下3D,若两者都不是,则返回该视频文件为普通视频上下3D;
[0010]S14、判断第一关键帧图片是否为左右结构的视频;若是,则进入步骤S15;若否,则进入步骤S16;
[0011]S15、依次判断第一关键帧图片是否为ytb视频3D、360度视频和180度视频,若是ytb视频3D,则返回该视频文件为ytb视频3D;若是360度视频,则返回该视频文件为360度视频左右3D;若是180度视频,则返回该视频文件为180度视频左右3D,若三者都不是,则返回该视频文件为普通视频左右3D;
[0012]S16、依次判断第一关键帧图片是否为ytb视频、360度视频和180度视频,若是ytb视频,则返回该视频文件为ytb视频;若是360度视频,则返回该视频文件为360度视频;若是180度视频,则返回该视频文件为180度视频;若三者都不是,则返回该视频文件为普通视频;
[0013]S2、对视频文件进行模型识别,获取模型识别结果;S2包括,
[0014]S21、对视频文件进行预处理:将视频文件去掉片头和片尾后截取一帧关键帧画面,保存为第二关键帧图片;
[0015]S22、对第二关键帧图片进行预处理;
[0016]S23、将预处理后的第二关键帧图片输入Swin transformer模型进行图片分类,并返回每个类别的概率值,概率值最大的类别即该视频文件所属的类别;
[0017]S3、判断策略识别结果和模型识别结果是否相同,若相同则将策略识别结果作为最终识别结果;若不相同,则将模型识别结果作为最终识别结果。
[0018]优选的,步骤S12具体为,第一关键帧图片的高度为h、宽度为w,从第一关键帧图片的0.5h处进行切割,将第一关键图片切割为两张高度为0.5h、宽度为w的上侧图和下侧图;采用ORB特征点匹配+均值哈希算法对切割后获取的上侧图和下侧图进行相似度计算,若相似度计算结果大于上下结构阈值,则表示两张图相似,判定该视频文件为上下结构,并将切割出来的上侧图保存起来,并进入步骤S13;否则,进入步骤S14;
[0019]优选的,步骤S13具体包括如下内容,
[0020]S131、截取上侧图最左边5列像素点保存为图片1、最右边5列像素点保存为图片2,将图片1和图片2转为64维的2个向量,采用余弦相似度+均值哈希算法计算这两个向量的相似度,若相似度大于360度视频上下3D阈值,则表示两张图相似,判定该视频文件为360度视频上下3D;否则,进入步骤S132;
[0021]S132、若上侧图的宽高比等于1或2,则判定该视频文件为180度视频上下3D;否则,判定该视频文件为普通视频上下3D。
[0022]优选的,步骤S14具体为,第一关键帧图片的高度为h、宽度为w,从第一关键帧图片的0.5w处进行切割,将第一关键图片切割为两张高度为h、宽度为0.5w的左侧图和右侧图;采用ORB特征点匹配+均值哈希算法对切割后获取的左侧图和右侧图进行相似度计算,若相似度计算结果大于左右结构阈值,则表示两张图相似,判定该视频文件为左右结构,并将切割出来的左侧图保存起来。
[0023]优选的,步骤S15具体包括如下内容,
[0024]S151、将左侧图投射到一个六面立方体中,在六面立方体相邻两个面的相接处取两列像素,将两列像素转为两个64维的向量,计算这两个向量的余弦相似度,若余弦相似度计算结果大于ytb视频3D阈值,则判断该视频文件为ytb视频3D;否则,进入步骤S152;
[0025]S152、截取左侧图最左边5列像素点保存为图片3、最右边5列像素点保存为图片4,将图片3和图片4转为64维的2个向量,采用余弦相似度+均值哈希算法计算这两个向量的相似度,若相似度大于360度视频左右3D阈值,则表示两张图相似,判定该视频文件为360度视频左右3D;否则,进入步骤S153;
[0026]S153、若左侧图的宽高比等于1或2,则判定该视频文件为180度视频左右3D;否则,判定该视频文件为普通视频左右3D。
[0027]优选的,步骤S16具体包括如下步骤,
[0028]S161、将第一关键帧图片投射到一个六面立方体中,在六面立方体相邻两个面的相接处取两列像素,将两列像素转为两个64维的向量,计算这两个向量的余弦相似度,若余弦相似度计算结果大于ytb视频阈值,则判断该视频文件为ytb视频;否则,进入步骤S162;
[0029]S162、截取第一关键帧图片最左边5列像素点保存为图片5、最右边5列像素点保存为图片6,将图片5和图片6转为64维的2个向量,采用余弦相似度+均值哈希算法计算这两个向量的相似度,若相似度大于360度视频阈值,则表示两张图相似,判定该视频文件为360度
视频;否则,进入步骤S163;
[0030]S163、若第一关键帧图片的宽高比等于1或2,则判定该视频文件为180度视频;否则,判定该视频文件为普通视频。
[0031]优选的,ORB特征点匹配+均值哈希算法具体为,
[0032]对分割获取的两张图提取关键点,对两张图中提取的关键点进行对比和匹配,计算匹配度;并对两张图片进行均值哈希处理,计算汉明距离;若计算得出的匹配度大于匹配阈值,且汉明距离小于距离阈值,则表示两张图相似。
[0033]优选的,余弦相似度+均值哈希算法具体为,
[0034]将三原色每个颜色的可取值范围0~255分割为4个分区,分别为:[0~63]、[64~127]、[12本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于VR设备的视频类型智能识别方法,其特征在于:包括如下步骤,S1、对视频文件进行策略识别,获取策略识别结果;S1包括,S11、对视频文件进行预处理:将视频文件去掉片头和片尾后截取两帧关键帧画面,保存为第一关键帧图片;S12、判断第一关键帧图片是否为上下结构的视频;若是,则进入步骤S13;若否,则进入步骤S14;S13、依次判断第一关键帧图片是否为360度视频和180度视频,若是360度视频,则返回该视频文件为360度视频上下3D,若是180度视频,则返回该视频文件为180度视频上下3D,若两者都不是,则返回该视频文件为普通视频上下3D;S14、判断第一关键帧图片是否为左右结构的视频;若是,则进入步骤S15;若否,则进入步骤S16;S15、依次判断第一关键帧图片是否为ytb视频3D、360度视频和180度视频,若是ytb视频3D,则返回该视频文件为ytb视频3D;若是360度视频,则返回该视频文件为360度视频左右3D;若是180度视频,则返回该视频文件为180度视频左右3D,若三者都不是,则返回该视频文件为普通视频左右3D;S16、依次判断第一关键帧图片是否为ytb视频、360度视频和180度视频,若是ytb视频,则返回该视频文件为ytb视频;若是360度视频,则返回该视频文件为360度视频;若是180度视频,则返回该视频文件为180度视频;若三者都不是,则返回该视频文件为普通视频;S2、对视频文件进行模型识别,获取模型识别结果;S2包括,S21、对视频文件进行预处理:将视频文件去掉片头和片尾后截取一帧关键帧画面,保存为第二关键帧图片;S22、对第二关键帧图片进行预处理;S23、将预处理后的第二关键帧图片输入Swin transformer模型进行图片分类,并返回每个类别的概率值,概率值最大的类别即该视频文件所属的类别;S3、判断策略识别结果和模型识别结果是否相同,若相同则将策略识别结果作为最终识别结果;若不相同,则将模型识别结果作为最终识别结果。2.根据权利要求1所述的基于VR设备的视频类型智能识别方法,其特征在于:步骤S12具体为,第一关键帧图片的高度为h、宽度为w,从第一关键帧图片的0.5h处进行切割,将第一关键图片切割为两张高度为0.5h、宽度为w的上侧图和下侧图;采用ORB特征点匹配+均值哈希算法对切割后获取的上侧图和下侧图进行相似度计算,若相似度计算结果大于上下结构阈值,则表示两张图相似,判定该视频文件为上下结构,并将切割出来的上侧图保存起来,并进入步骤S13;否则,进入步骤S14。3.根据权利要求2所述的基于VR设备的视频类型智能识别方法,其特征在于:步骤S13具体包括如下内容,S131、截取上侧图最左边5列像素点保存为图片1、最右边5列像素点保存为图片2,将图片1和图片2转为64维的2个向量,采用余弦相似度+均值哈希算法计算这两个向量的相似度,若相似度大于360度视频上下3D阈值,则表示两张图相似,判定该视频文件为360度视频上下3D;否则,进入步骤S132;S132、若上侧图的宽高比等于1或2,则判定该视频文件为180度视频上下3D;否则,判定
该视频文件为普通视频上下3D。4.根据权利要求3所述的基于VR设备的视频类型智能识别方法,其特征在于:步骤S14具体为,第一关键帧图片的高度为h、宽度为w,从第一关键帧图片的0.5w处进行切割,将第一关键图片切割为两张高度为h、宽度为0.5w的左侧图和右侧图;采用ORB特征点匹配+均值哈希算法对切割后获取的左侧图和右侧图进行相似度计算,若相似度计算结果大于左右结构阈值,则表示两张图相似,判定该视频文件为左右结构,并将切割出来的左侧图保存起来。5.根据权利要求4所述的基于VR设备的视频类型智能识别方法,其特征在于:步骤S15具体包括如下内容,S151、将左侧图投射到一个六面立方体中,在六面立方体相邻两个面的相接处取两列像素,将两列像素转为两个64维的向量,计算这两个向量的余弦相似度,若余弦相似度计算结果大于ytb视频3D阈值,则判断该视频文件为ytb视频3D;否则,进入步骤S152;S152、截取左侧图最左边5列像素点保存为图片3、最右边5列像素点保存为图片4,将图片3和图片4转为64维的2个向量,采用余弦相似度+均值哈希算法计算这两个向量的相似度,若相似度大于360度视频左右3D阈值,则表示两张图相似,判定该视频文件为360度视频左右3D;否则,进入步骤S153;S153、若左侧图的宽高比等于1或2,则判定该视频文件为18...

【专利技术属性】
技术研发人员:张华伟李璋
申请(专利权)人:新壹北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1