全景视频导出方法、装置、终端设备以及存储介质制造方法及图纸

技术编号:39050053 阅读:11 留言:0更新日期:2023-10-12 19:42
本发明专利技术实施例提出了一种全景视频导出方法、装置、终端设备以及存储介质,涉及视频处理技术领域;能够自动评价全景视频中视角物体的精彩程度,选择精彩的视角物体进行跟踪导出2D视频。所述方法包括:获得全景视频的关键帧;基于预设视觉目标检测模型,在所述关键帧显示的所有视觉目标中选取精彩程度高于预设阈值的至少一个跟踪视觉目标;追踪根据所述至少一个跟踪视觉目标生成的追踪框,生成运动轨迹序列;其中,所述运动轨迹序列表示所述至少一个跟踪视觉目标在所述全景视频中的位置变化;对所述运动轨迹序列进行全景投影,获得所述跟踪视觉目标的运动视频。视觉目标的运动视频。视觉目标的运动视频。

【技术实现步骤摘要】
全景视频导出方法、装置、终端设备以及存储介质


[0001]本专利技术实施例涉及视频处理
,尤其涉及一种全景视频导出方法、装置、终端设备以及存储介质。

技术介绍

[0002]为解决常规摄像装置的局限性:录制视频的视角极其狭小,无法记录许多重要的细节,全景视频记录了相机所在360度球面的所有视觉信息,用户在拍摄时无需运镜取景,只需在拍摄完后手动选定特定视角的视频内容进行导出,可以获得任意视觉目标的视频。但目前往往需要人工查看全景视频的所有画面,选择精彩的画面进行内容导出,并且导出过程需要用户在每个时间戳上选定视角目标进行导出,操作繁琐且低效。

技术实现思路

[0003]本专利技术实施例提供了一种全景视频导出方法、装置、终端设备以及存储介质,能够自动评价全景视频中视角物体的精彩程度,选择精彩的视角物体进行跟踪导出2D视频。
[0004]第一方面,本专利技术实施例提供一种全景视频导出方法,应用于电子终端设备,所述方法包括:
[0005]获得全景视频的关键帧;所述关键帧为所述全景视频中的任意图像帧;基于本专利技术第一方面构建的视觉目标检测模型对所述关键帧提取第一高维度特征图;基于所述视觉目标检测模型根据所述第一高维度特征图,对所述关键帧显示的所有视觉目标进行精彩程度评估;根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标追踪根据所述至少一个跟踪视觉目标生成的追踪框,生成运动轨迹序列;其中,所述运动轨迹序列表示所述至少一个跟踪视觉目标在所述全景视频中的位置变化;对所述运动轨迹序列进行平面投影,获得所述跟踪视觉目标的运动视频。
[0006]上述全景视频导出方法,采用构建的视觉目标检测模型对全景视频的关键帧提取高维度特征图,根据高维度特征图计算关键帧显示的视觉目标的精彩程度评分,在关键帧显示的所有视觉目标中选取精彩程度高于预设阈值的至少一个跟踪视觉目标,例如罕见的物体、运动的物体等吸引用户眼球的视觉目标;同时预设视觉目标检测模型生成跟踪视觉目标的追踪框;根据追踪框,追踪跟踪视觉目标分别在所述全景视频中每帧画面占据的图像区域,获得所述跟踪视觉目标的运动视频,无需人工查看全景视频,操作简便。
[0007]其中一种可能的实现方式中,所述方法还包括:
[0008]基于视觉目标检测模型,输出所述至少一个跟踪视觉目标的位置坐标;
[0009]追踪根据所述至少一个跟踪视觉目标生成的追踪框,生成运动轨迹序列,包括:
[0010]根据所述位置坐标,追踪根据所述至少一个跟踪视觉目标生成的追踪框,生成运动轨迹序列。
[0011]其中一种可能的实现方式中,所述方法还包括:
[0012]响应用户指定的剪辑指令,获得待显示物体和视频时间长度;
[0013]获得与待显示物体匹配的多跟踪视觉目标;
[0014]按照所述多个跟踪视觉目标的运动视频各自对应的精彩程度评分大小,顺序选取对应目标运动视频作为待剪辑视频;
[0015]从所述待剪辑视频截取符合所述视频时间长度的片段,获得用户指定的显示物体的运动视频。
[0016]其中一种可能的实现方式中,所述视觉目标检测模型包括第一多层卷积神经网络、第二多层卷积神经网络以及评分子网络;
[0017]基于视觉目标检测模型对所述关键帧提取高维度特征图,包括:
[0018]将所述关键帧输入所述视觉目标检测模型的第一多层卷积神经网络,输出所述高维度特征图;
[0019]对所述高维度特征图进行ROIAlign操作,得到池化后的高维度特征图;
[0020]基于所述视觉目标检测模型根据所述高维度特征图,对所述关键帧显示的所有视觉目标进行精彩程度评分,包括:
[0021]将所述池化后的高维度特征图输入所述评分子网络,输出所述关键帧中所有视觉目标的精彩程度评分。
[0022]其中一种可能的实现方式中,在所述全景视频的目标帧图像追踪到所述跟踪视觉目标后,所述方法还包括:
[0023]基于视觉目标检测模型对所述目标帧图像提取第二高维度特征图;
[0024]基于所述视觉目标检测模型根据所述第二高维度特征图,对所述目标帧图像显示的所有视觉目标进行精彩程度评分;
[0025]当所述目标帧图像中任意视觉目标的精彩程度评分大于所述跟踪视觉目标的精彩程度评分,在所述全景视频的每帧图像追踪该任意视觉目标。
[0026]其中一种可能的实现方式中,根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标,包括
[0027]将所述关键帧的所有视觉目标中精彩程度评分最高的视觉目标确定为跟踪视觉目标。
[0028]其中一种可能的实现方式中,根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标,包括
[0029]按照精彩程度评分从大到小顺序选取对应视觉目标作为所述跟踪视觉目标,直至所述跟踪视觉目标的数量满足预设数量。
[0030]第二方面,本专利技术实施例提供一种全景视频导出装置,设置在电子终端设备中,所述装置包括:
[0031]图像帧获得模块,用于获得全景视频的关键帧;所述关键帧为所述全景视频中的任意图像帧;第一特征提取模块,用于基于如权利要求1或2构建的视觉目标检测模型对所述关键帧提取第一高维度特征图;
[0032]第一评分模块,用于基于所述视觉目标检测模型根据所述第一高维度特征图,对所述关键帧显示的所有视觉目标进行精彩程度评估;
[0033]选择模块,用于根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标;
[0034]第一追踪模块,用于追踪根据所述至少一个跟踪视觉目标生成的追踪框,生成运动轨迹序列;其中,所述运动轨迹序列表示所述至少一个跟踪视觉目标在所述全景视频中的位置变化;
[0035]投影模块,用于对所述运动轨迹序列进行平面投影,获得所述跟踪视觉目标的运动视频。
[0036]其中一种可能的实现方式中,所述装置还包括:
[0037]位置输出模块,用于基于视觉目标检测模型,输出所述至少一个跟踪视觉目标的位置坐标;
[0038]所述第一追踪模块具体用于根据所述位置坐标,追踪根据所述至少一个跟踪视觉目标生成的追踪框,生成运动轨迹序列。
[0039]其中一种可能的实现方式中,所述装置还包括:
[0040]响应模块,用于响应用户指定的剪辑指令,获得待显示物体和视频时间长度;
[0041]获得模块,用于获得与待显示物体匹配的多个跟踪视觉目标;
[0042]选取模块,用于按照所述多个跟踪视觉目标的运动视频各自对应的精彩程度评分大小,顺序选取对应目标运动视频作为待剪辑视频;
[0043]截取模块,用于从所述待剪辑视频截取符合所述视频时间长度的片段,获得用户指定的显示物体的运动视频。
[0044]其中一种可能的实现方式中,所述视觉目标检测模型包括第一多层卷积神经网络、第二多层卷积神经网络以及评分子网络;
[0045]所述第一特征提取模块包括:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉目标检测模型构建方法,其特征在于,所述方法包括:构建包含多个全景图像的样本集;根据多个维度对精彩程度的评价标准,对所述样本集中的各全景图像中具有精彩特性的物体标注综合得分;所述多个维度包括:目标类别、运动状态、人物属性、显著性;利用携带标注的全景图像训练预先构建的多层神经网络,直至所述多层神经网络针对物体输出的跟踪视觉目标与所述目标物体一致,并且精彩程度评分与对应标注综合得分相差程度小于预设阈值,将经过多次训练多层神经网络作为所述视觉目标检测模型。2.根据权利要求1所述的方法,其特征在于,所述预先构建的多层神经网络包括:第一多层卷积神经网络、第二多层卷积神经网络以及评分子网络;其中,第二多层卷积神经网络和评分子网络分别连接所述第一多层卷积神经网络。3.一种全景视频导出方法,其特征在于,所述方法包括:获得全景视频的关键帧;所述关键帧为所述全景视频中的任意图像帧;基于如权利要求1或2构建的视觉目标检测模型对所述关键帧提取第一高维度特征图;基于所述视觉目标检测模型根据所述第一高维度特征图,对所述关键帧显示的所有视觉目标进行精彩程度评估;根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标;追踪根据所述至少一个跟踪视觉目标生成的追踪框,生成运动轨迹序列;其中,所述运动轨迹序列表示所述至少一个跟踪视觉目标在所述全景视频中的位置变化;对所述运动轨迹序列进行平面投影,获得所述跟踪视觉目标的运动视频。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:基于视觉目标检测模型,输出所述至少一个跟踪视觉目标的位置坐标;追踪根据所述至少一个跟踪视觉目标生成的追踪框,生成运动轨迹序列,包括:根据所述位置坐标,追踪根据所述至少一个跟踪视觉目标生成的追踪框,生成运动轨迹序列。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:响应用户指定的剪辑指令,获得待显示物体和视频时间长度;获得与待显示物体匹配的多个跟踪视觉目标;按照所述多个跟踪视觉目标的运动视频各自对应的精彩程度评分大小,顺序选取对应目标运动视频作为待剪辑视频;从所述待剪辑视频截取符合所述视频时间长度的片段,获得用户指定的显示物体的运动视频。6.根据权利要求3所述的方法,其特征在于,所述视觉目标检测模型包括第一多层卷积神经网络、第二多层卷积神经网络以及评分子网络;基于视觉目标检测模型对所述关键帧提取高维度特征图,包括:将所述关键帧输入所述视觉目标检测模型的第一多层卷积神经网络,输出所述高维度特征图;对所述高维度特征图进行ROIAlign操作,得到池化后的高维度特征图;基于所述视觉目标检测模型根据所述高维度特征图,对所述关键帧显示的所有视觉目标进行精彩程度评分,包括:
将所述池化后的高维度特征图输入所述评分子网络,输出所述关键帧中所有视觉目标的精彩程度评分。7.根据权利要求3所述的方法,其特征在于,在所述全景视频的目标帧图像追踪到所述跟踪视觉目标后,所述方法还包括:基于视觉目标检测模型对所述目标帧图像提取第二高维度特征图;基于所述视觉目标检测模型根据所述第二高维度特征图,对所述目标帧图像显示的所有视觉目标进行精彩程度评分;当所述目标帧图像中任意视觉目标的精彩程度评分大于所述跟踪视觉目标的精彩程度评分,在所述全景视频的每帧图像追踪该任意视觉目标。8.根据权利要求3所述的方法,其特征在于,根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标,包括将所述关键帧的所有视觉目标中精彩程度评分最高的视觉目标确定为跟踪视觉目标。9.根据权利要求3所述的方法,其特征在于,根据精彩程度评估结果选择至少一个视觉目标...

【专利技术属性】
技术研发人员:龙良曲郭士嘉姜文杰
申请(专利权)人:影石创新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1