视频场景分割、视觉任务处理方法、装置、设备以及介质制造方法及图纸

技术编号:37174932 阅读:17 留言:0更新日期:2023-04-20 22:44
本公开提供了一种视频场景分割、视觉任务处理方法、装置、设备以及介质,涉及人工智能技术领域,尤其涉及视频处理、图像处理、计算机视觉和深度学习技术领域。具体实现方案为:对视频进行镜头分割,得到至少一个镜头;确定与至少一个镜头对应的镜头特征,其中,镜头特征包括局部语义特征,局部语义特征表征视频中视频场景之间的局部关联信息;根据与至少一个镜头对应的镜头特征,确定视频的场景分割信息。确定视频的场景分割信息。确定视频的场景分割信息。

【技术实现步骤摘要】
视频场景分割、视觉任务处理方法、装置、设备以及介质


[0001]本公开涉及人工智能
,尤其涉及视频处理、图像处理、计算机视觉和深度学习
具体地,涉及一种视频场景分割、视觉任务处理方法、装置、设备以及介质。

技术介绍

[0002]随着计算机技术的发展,人工智能技术也得到了发展。例如,可以利用人工智能技术来实现视频理解。视频场景分割是视频检索的任务之一,为视频理解提供了关键信息。视频场景分割可以指用于确定视频的语义边界的技术。

技术实现思路

[0003]本公开提供了一种视频场景分割、视觉任务处理方法、装置、设备以及介质。
[0004]根据本公开的一方面,提供了一种视频场景分割方法,包括:对视频进行镜头分割,得到至少一个镜头;确定与上述至少一个镜头对应的镜头特征,其中,上述镜头特征包括局部语义特征,上述局部语义特征表征上述视频中视频场景之间的局部关联信息;以及,根据与上述至少一个镜头对应的镜头特征,确定上述视频的场景分割信息。
[0005]根据本公开的另一方面,提供了一种视觉任务处理方法,包括:确定待处理本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频场景分割方法,包括:对视频进行镜头分割,得到至少一个镜头;确定与所述至少一个镜头对应的镜头特征,其中,所述镜头特征包括局部语义特征,所述局部语义特征表征所述视频中视频场景之间的局部关联信息;以及根据与所述至少一个镜头对应的镜头特征,确定所述视频的场景分割信息。2.根据权利要求1所述的方法,其中,所述确定与所述至少一个镜头对应的镜头特征,包括:基于对比学习策略处理所述至少一个镜头,得到与所述至少一个镜头对应的局部语义特征,其中,所述对比学习策略用于对比学习正样本对和负样本对的局部语义特征。3.根据权利要求2所述的方法,其中,所述基于对比学习策略处理所述至少一个镜头,得到与所述至少一个镜头对应的局部语义特征,包括:利用表征模型处理所述至少一个镜头,得到与所述至少一个镜头对应的局部语义特征;其中,所述表征模型是利用所述正样本对的样本局部语义特征和所述负样本对的样本局部语义特征训练自监督模型得到的,所述正样本对包括第一样本镜头和第二样本镜头,所述负样本对包括所述第一样本镜头和第三样本镜头;其中,所述第一样本镜头和所述第二样本镜头的场景类别相同,所述第一样本镜头和所述第三样本镜头的场景类别不同。4.根据权利要求3所述的方法,其中,所述正样本对是从第一样本视频包括的第一样本镜头集中确定的,包括以下之一:所述第一样本镜头是从所述第一样本视频包括的第一样本镜头集中确定的,所述第二样本镜头是随机从所述第一样本镜头集中确定的;以及所述第一样本镜头是从所述第一样本视频包括的第一样本镜头集中确定的,所述第二样本镜头是所述第一样本镜头集中与所述第一样本镜头之间的第一相似度大于或等于第一预定相似度阈值的样本镜头。5.根据权利要求4所述的方法,其中,所述第三样本镜头是根据如下方式之一确定的:所述第三样本镜头是从所述第一样本镜头集中确定的;所述第三样本镜头是从所述第一样本视频包括的第二样本镜头集中确定的,所述第二样本镜头集和所述第一样本镜头集之间至少包括不同的样本镜头;以及所述第三样本镜头是从所述第二样本视频包括的第三样本镜头集中确定的,所述第二样本视频与所述第一样本视频不同。6.根据权利要求5所述的方法,其中,所述第三样本镜头是从所述第一样本镜头集中确定的,包括以下之一:所述第三样本镜头是随机从所述第一样本镜头集中确定的;以及所述第三样本镜头是所述第一样本镜头集中与所述第一样本镜头之间的第二相似度小于或等于第二预定相似度阈值的样本镜头,其中,所述第二预定相似度阈值小于所述第一预定相似度阈值。7.根据权利要求3所述的方法,其中,所述正样本对是从第四样本镜头集中确定的,所述第三样本镜头是从第五样本镜头集中确定的;
其中,所述第四样本镜头集和所述第五样本镜头集是对第六样本镜头集进行聚类得到的,所述第六样本镜头集是对第三样本视频进行镜头分割得到的;其中,所述第四样本镜头集和所述第五样本镜头集是不同的聚类簇。8.根据权利要求1~7中任一项所述的方法,其中,所述镜头特征还包括全局语义特征;其中,所述根据与所述至少一个镜头对应的镜头特征,确定所述视频的场景分割信息,包括:根据与所述至少一个镜头对应的全局语义特征,确定所述视频的场景分割信息。9.根据权利要求8所述的方法,其中,所述全局语义特征包括以下至少之一:全局显式语义特征和全局隐式语义特征;其中,在确定所述全局语义特征包括所述全局显式语义特征的情况下,所述确定与所述至少一个镜头对应的镜头特征,包括:确定与所述至少一个镜头对应的深层视觉特征;以及根据与所述至少一个镜头对应的深层视觉特征,确定与所述至少一个镜头对应的全局显式语义特征;其中,在确定所述全局语义特征包括所述全局隐式语义特征的情况下,所述确定与所述至少一个镜头对应的镜头特征,包括:确定与所述至少一个镜头对应的局部语义特征;以及根据与所述至少一个镜头对应的局部语义特征,确定与所述至少一个镜头对应的全局隐式语义特征。10.根据权利要求9所述的方法,其中,所述根据与所述至少一个镜头对应的深层视觉特征,确定与所述至少一个镜头对应的全局显式语义特征,包括:根据与所述至少一个镜头对应的深层视觉特征,确定所述至少一个镜头之间的第三相似度;以及根据所述至少一个镜头之间的第三相似度,确定与所述至少一个镜头对应的全局显式语义特征。11.根据权利要求8~10中任一项所述的方法,其中,所述镜头特征还包括浅层视觉特征;其中,所述根据与所述至少一个镜头对应的全局语义特征,确定所述视频的场景分割信息,包括:根据与所述至少一个镜头对应的全局语义特征和浅层视觉特征,得到与所述至少一个镜头对应的融合特征;以及根据与所述至少一个镜头对应的融合特征,确定所述视频的场景分割信息。12.根据权利要求9~11中任一项所述的方法,其中,所述根据与所述至少一个镜头对应的局部语义特征,确定与所述至少一个镜头对应的全局隐式语义特征,包括:基于注意力策略处理与所述至少一个镜头对应的局部语义特征,得到与所述至少一个镜头对应的全局隐式语义特征。13.根据权利要求12所述的方法,其中,所述基于注意力策略处理与所述至少一个镜头对应的局部语义特征,得到与所述至少一个镜头对应的全局隐式语义特征,包括:将所述至少一个镜头划分为至少一个镜头集,其中,相邻两个所述镜头集中的镜头至
少部分不同;以及基于自注意力策略对与所述至少一个镜头集对应的局部语义特征集进行M层级处理,得到与所述至少一个镜头对应的全局隐式语义特征,其中,M是大于或等于1的整数。14.根据权利要求13所述的方法,其中,在所述M是大于1的整数的情况下,其中,所述基于自注意力策略对与所述至少一个镜头集对应的局部语义特征集进行M层级处理,得到与所述至少一个镜头对应的全局隐式语义特征,包括:在1<m≤M的情况下,根据第m

1层级的与所述至少一个镜头集对应的第一中间语义特征集,得到第m层级的与所述至少一个镜头集对应的第二中间语义特征集,其中,所述第一中间语义集包括的第一中间语义特征用于确定第一查询矩阵、第一键矩阵和第一值矩阵;根据所述第m层级的与所述至少一个镜头集对应的第二中间语义特征集和所述第m

1层级的与所述至少一个镜头集对应的第一中间语义特征集,得到第m层级的与所述至少一个镜头集对应的第一中间语义特征集;以及根据第R层级的与所述至少一个镜头集对应的第一中间语义特征集,得到与所述至少一个镜头对应的全局隐式语义特征;其中,m是大于或等于1且小于或等于M的整数,R是大于或等于1且小于或等于M的整数。15.根据权利要求14所述的方法,其中,所述根据第m

1层级的与所述至少一个镜头集对应的第一中间语义特征集,得到第m层级的与所述至少一个镜头集对应的第二中间语义特征集,包括:根据所述第m

1层级的与所述至少一个镜头集对应的第一中间语义特征集,确定所述第m层级的与所述至少一个镜头集对应的至少一个第一矩阵集,其中,所述第一矩阵集包括所述第一查询矩阵、所述第一键矩阵和所述第一值矩阵;以及针对所述第m层级的所述至少一个镜头中的镜头,针对与所述镜头对应的...

【专利技术属性】
技术研发人员:唐鑫王冠皓
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1