视频处理方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:35061907 阅读:40 留言:0更新日期:2022-09-28 11:16
本申请公开了一种视频处理方法,包括:获取视频数据及视频数据关联的文本数据进行模态融合得到多模态特征;基于时序网络生成多模态特征对应的高时序分辨率特征;根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测,得到每个时序位置为幕分割点的概率;对高时序分辨率特征进行池化操作得到低时序分辨率特征;根据幕完整性评估网络对低时序分辨率特征进行幕完整性评估,得到每个提名区间的幕完整性评估分数;结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数生成视频数据对应的多个目标幕。本申请应用人工智能技术对幕分割点进行精确定位,并结合提名区域的幕完整性评估来抑制过分割,有效提升幕分割的精确度及效率。分割的精确度及效率。分割的精确度及效率。

【技术实现步骤摘要】
视频处理方法、装置、存储介质及计算机设备


[0001]本申请涉及计算机视觉
,更具体地,涉及一种视频处理方法、装置、存储介质及计算机设备。

技术介绍

[0002]储存技术和通信技术的快速进步,使得信息的主要载体逐渐从文字和图像向视频转移。与文字,图像相比,视频可以承载更多的信息,也更加贴近人类所感知的世界,视频数据不仅同时包含时间维度和空间维度,还载有音频信息和文本信息,其应用场景非常丰富。因此,视频理解的相关技术受到人们的广泛关注。
[0003]幕分割作为视频理解的相关技术之一,可以根据视频呈现形式、叙事手法的不同,将一段完整的视频切分为多个幕,以便开展后续的视频混剪或者派生等视频创意工作。目前,幕分割技术通常采用先做镜头切分,再做镜头聚合,进而找出幕分割点的方案,这种方案不仅计算效率较低且幕分割结果的精确度不高。

技术实现思路

[0004]本申请实施例提供一种视频处理方法、装置、存储介质以及计算机设备。旨在提升幕分割结果的精确度及幕分割的计算效率。
[0005]一方面,本申请实施例提供一种视频处理方法,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,所述方法包括:获取视频数据及视频数据关联的文本数据进行模态融合,得到多模态特征;基于时序网络生成所述多模态特征对应的高时序分辨率特征;根据幕分割点预测网络对所述高时序分辨率特征进行幕分割点预测,得到每个时序位置为幕分割点的概率;对所述高时序分辨率特征进行池化操作,得到低时序分辨率特征;根据幕完整性评估网络对所述低时序分辨率特征进行幕完整性评估,得到每个提名区间的幕完整性评估分数;结合所述每个时序位置为幕分割点的概率与所述每个提名区间的幕完整性评估分数,生成所述视频数据对应的多个目标幕。2.根据权利要求1所述的方法,其特征在于,所述结合所述每个时序位置为幕分割点的概率与所述每个提名区间的幕完整性评估分数,生成所述视频数据对应的多个目标幕,包括:获取所述每个提名区间对应的衰减系数;基于每个时序位置为幕分割点的概率,确定每个提名区间的区间端点位置为幕分割点的概率;基于所述衰减系数、所述区间端点位置为幕分割点的概率以及所述幕完整性评估分数,确定所述每个提名区间的预测分数;根据所述每个提名区间的预测分数,确定多个预选幕;对所述多个预选幕进行微调操作,得到所述多个预选幕对应的多个目标幕。3.根据权利要求2所述的方法,其特征在于,所述对所述多个预选幕进行微调操作,得到所述多个预选幕对应的多个目标幕,包括:获取每个时序位置的边界修正偏移量;根据所述边界修正偏移量对所述多个预选幕进行微调操作,得到所述多个预选幕对应的多个目标幕。4.根据权利要求1~3任一项所述的方法,其特征在于,所述模态融合由交叉注意力网络执行,所述交叉注意力网络,所述时序网络,所述幕分割点预测网络以及所述幕完整性评估网络通过如下步骤训练得到:获取训练数据集合,所述训练数据集合包括视频训练特征、文本训练特征、分割点检测标签、边界修正偏移量标签以及幕完整性评估标签;获取预设注意力网络、预设时序网络、预设分割网络以及预设评估网络;通过所述训练数据集合对所述预设注意力网络、所述预设时序网络、所述预设分割网络以及所述预设评估网络进行端到端的网络联合训练,直至所述预设注意力网络、所述预设时序网络、所述预设分割网络以及所述预设评估网络构成的整个网络满足预设条件,得到训练后的交叉注意力网络、时序网络、幕分割点预测网络以及幕完整性评估网络。5.根据权利要求1所述的方法,其特征在于,所述幕分割点预测网络包括至少四个卷积块,所述根据幕分割点预测网络对所述高时序分辨率特征进行幕分割点预测,得到每个时序位置为幕分割点的概率,包括:基于所述至少四个卷积块生成所述高时序分辨率特征对应的目标预测特征图,其中,
每个所述卷积块包括卷积层、批归一化层和非线性层,每个所述卷积块中的卷积核相同和卷积步长相同;基于所述目标预测特征图,利用第一激活函数计算出每个时序位置为幕分割点的概率和每个时序位置的边界修正偏移量。6.根据权利要求5所述的方法,其特征在于,所述基于所述至少四个卷积块生成所述高时序分辨率特征对应的目标预测特征图,包括:将所述高时序分辨率特征输入至第一卷积块进行第一卷积处理,得到第一预测特征图;将所述第一预测特征图输入至第二卷积块,得到第二预测特征图;将所述第二预测特征图输入至第三卷积块,得到第三预测特征图;将所述第三预测特征图输入至第四卷积块,得到目标预测特征图。7.根据权利要求1所述的方法,其特征在于,所述根据幕完整性评估网络对所述低时序分辨率特征进行幕完整性评估,得到每...

【专利技术属性】
技术研发人员:权融威张浩鑫芦清林刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1