System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视频处理方法、装置和电子设备制造方法及图纸_技高网

视频处理方法、装置和电子设备制造方法及图纸

技术编号:41404099 阅读:3 留言:0更新日期:2024-05-20 19:29
本申请提供一种视频处理方法、装置和电子设备,涉及视频处理技术领域。该方法包括:基于待处理视频中相邻图像帧之间像素特征的差异,对待处理视频进行拆分,得到分别对应不同视频镜头的多个视频片段;针对各视频片段,提取视频片段对应的多类语义特征,基于多类语义特征确定用于表征视频片段的多模态语义特征;其中,多类语义特征包括图像帧序列特征、音频特征和文本特征中的至少两类。本申请提供的视频处理方法,可以从待处理视频中,提取对应不同视频镜头的多个视频片段的多模态语义特征,同时满了细粒度和完整语义需求。

【技术实现步骤摘要】

本申请涉及视频处理,尤其涉及一种视频处理方法、装置和电子设备


技术介绍

1、随着互联网和移动设备的普及,视频作为一种具有表现力和吸引力的媒介,可以传递更为丰富的信息,越来越受到用户的青睐。由于视频中包含有大量的特征信息,因此,业界一般是通过提取这些特征信息来表征或描述该视频。

2、在一些具体的应用场景中,例如视频理解、视频检索、视频推送、视频指纹等,为了描述待处理视频所具有的特点,一种方法是基于视频级的特征提取,另一种方法是基于视频关键帧的特征提取。以上两类方法存在的不足在于,第一种方法存在缺乏视频的细粒度特征描述,另一种方法则存在关键帧级特征的语义不完整的问题,且上述两种方法均不适用于视频片段。

3、因此,业界亟需一种同时满足视频细粒度和完整语义需求的、且适于视频片段的处理方法。


技术实现思路

1、本申请提供了一种视频处理方法、装置和电子设备,可以从待处理视频中,提取对应不同视频镜头的多个视频片段的多模态语义特征,可以同时满足细粒度和完整语义需求。

2、本申请提供一种视频处理方法,该视频处理方法可以包括:

3、基于待处理视频中相邻图像帧之间像素特征的差异,对所述待处理视频进行拆分,得到分别对应不同视频镜头的多个视频片段;

4、针对各所述视频片段,提取所述视频片段对应的多类语义特征,基于所述多类语义特征确定用于表征所述视频片段的多模态语义特征;

5、其中,所述多类语义特征包括图像帧序列特征、音频特征和文本特征中的至少两类。

6、根据本申请提供的一种视频处理方法,所述方法还包括:

7、基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征;

8、其中,所述全局视频特征用于表征所述待处理视频的多模态语义特征。

9、根据本申请提供的一种视频处理方法,所述基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征,包括:

10、针对各所述视频片段,基于所述视频片段的多模态语义特征,从多个预设聚类中确定所述视频片段所属的目标聚类,多个所述预设聚类是对多个关联视频各自的视频片段的多模态语义特征进行聚类得到的,所述关联视频的视频内容类型与所述待处理视频的视频内容类型相同;

11、针对所述多模态语义特征的各维度特征,基于各所述视频片段的维度特征和所属目标聚类的聚类中心的多模态语义特征的所述维度特征,确定所述维度特征对应的特征差异;

12、基于各所述维度特征对应的特征差异,确定所述全局视频特征。

13、根据本申请提供的一种视频处理方法,所述基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征,包括:

14、针对各所述视频片段,基于所述视频片段的多模态语义特征,从多个预设聚类中确定所述视频片段所属的目标聚类,多个所述预设聚类是对多个关联视频各自的视频片段的多模态语义特征进行聚类得到的,所述关联视频的视频内容类型与所述待处理视频的视频内容类型相同;

15、基于所述视频片段的多模态语义特征中各维度特征和所属目标聚类的聚类中心的多模态语义特征中对应的维度特征,确定所述视频片段对应的特征差异;

16、基于各所述视频片段对应的特征差异,确定所述全局视频特征。

17、根据本申请提供的一种视频处理方法,所述基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征,包括:

18、针对各所述视频片段,对所述视频片段的多模态语义特征进行归一化处理,得到所述视频片段处理后的多模态语义特征;

19、将各所述视频片段处理后的多模态语义特征的平均值,确定为所述全局视频特征。

20、根据本申请提供的一种视频处理方法,在所述语义特征包括所述图像帧序列特征的情况下,提取所述视频片段对应的图像帧序列特征,包括:

21、对所述视频片段进行抽帧处理,得到多个第一图像帧;

22、针对各所述第一图像帧,将所述第一图像帧输入至图像模型特征编码器中,得到所述第一图像帧的图像特征;

23、将各所述第一图像帧的图像特征构成的图像特征序列输入至序列模型编码器中,得到所述图像帧序列特征。

24、根据本申请提供的一种视频处理方法,在所述语义特征包括所述音频特征的情况下,提取所述视频片段对应的音频特征,包括:

25、对所述视频片段的音频进行切分处理,得到多个音频片段;

26、针对各所述音频片段,将所述音频片段的频域特征输入至音频模型编码器中,得到所述音频片段编码后的频域特征;

27、基于各所述音频片段编码后的频域特征,确定所述音频特征。

28、根据本申请提供的一种视频处理方法,在所述语义特征包括所述文本特征的情况下,提取所述视频片段对应的文本特征,包括:

29、对所述视频片段进行抽帧处理,得到多个第二图像帧;

30、针对各所述第二图像帧,将所述第二图像帧输入至图像帧编码器中,提取所述第二图像帧的图像特征;并将所述第二图像帧的图像特征输入至图像帧解码器中,提取所述第二图像帧的文本;

31、将多个所述第二图像帧各自的文本输入至图像帧文本编码器中,得到所述文本特征。

32、根据本申请提供的一种视频处理方法,所述方法还包括:

33、将所述视频片段的多模态语义特征与预设视频片段的多模态语义特征进行匹配,得到第一匹配结果;

34、其中,所述第一匹配结果用于表征所述视频片段与所述预设视频片段之间的匹配度。

35、根据本申请提供的一种视频处理方法,所述方法还包括:

36、将所述待处理视频的全局视频特征与预设视频的全局视频特征进行匹配,得到第二匹配结果;

37、其中,所述第二匹配结果用于表征所述待处理视频与所述预设视频之间的匹配度。

38、本申请还提供一种视频处理装置,该视频处理装置可以包括:

39、拆分单元,用于基于待处理视频中相邻图像帧之间像素特征的差异,对所述待处理视频进行拆分,得到分别对应不同视频镜头的多个视频片段;

40、第一处理单元,用于针对各所述视频片段,提取所述视频片段对应的多类语义特征,基于所述多类语义特征确定用于表征所述视频片段的多模态语义特征;

41、其中,所述多类语义特征包括图像帧序列特征、音频特征和文本特征中的至少两类。

42、根据本申请提供的一种视频处理装置,所述装置还包括:

43、第二处理单元,用于基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征;

44、其中,所述全局视频特征用于表征所述待处理视频的多模态语义特征。

45、根据本申请提供的一种视频处理装置,所述第二处理单元,用于基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征,包括:

本文档来自技高网...

【技术保护点】

1.一种视频处理方法,其特征在于,包括:

2.根据权利要求1所述的视频处理方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的视频处理方法,其特征在于,所述基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征,包括:

4.根据权利要求2所述的视频处理方法,其特征在于,所述基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征,包括:

5.根据权利要求2所述的视频处理方法,其特征在于,所述基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征,包括:

6.根据权利要求1-5任一项所述的视频处理方法,其特征在于,在所述语义特征包括所述图像帧序列特征的情况下,提取所述视频片段对应的图像帧序列特征,包括:

7.根据权利要求1-5任一项所述的视频处理方法,其特征在于,在所述语义特征包括所述音频特征的情况下,提取所述视频片段对应的音频特征,包括:

8.根据权利要求1-5任一项所述的视频处理方法,其特征在于,在所述语义特征包括所述文本特征的情况下,提取所述视频片段对应的文本特征,包括:

9.根据权利要求1-5任一项所述的视频处理方法,其特征在于,所述方法还包括:

10.根据权利要求2-5任一项所述的视频处理方法,其特征在于,所述方法还包括:

11.一种视频处理装置,其特征在于,包括:

12.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至10任一项所述的视频处理方法。

13.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的视频处理方法。

14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的视频处理方法。

...

【技术特征摘要】

1.一种视频处理方法,其特征在于,包括:

2.根据权利要求1所述的视频处理方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的视频处理方法,其特征在于,所述基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征,包括:

4.根据权利要求2所述的视频处理方法,其特征在于,所述基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征,包括:

5.根据权利要求2所述的视频处理方法,其特征在于,所述基于各所述视频片段的多模态语义特征,确定所述待处理视频的全局视频特征,包括:

6.根据权利要求1-5任一项所述的视频处理方法,其特征在于,在所述语义特征包括所述图像帧序列特征的情况下,提取所述视频片段对应的图像帧序列特征,包括:

7.根据权利要求1-5任一项所述的视频处理方法,其特征在于,在所述语义特征包括所述音频特征的情况下,提取所述视频片段对应的音频特征,包括:

<...

【专利技术属性】
技术研发人员:王正光
申请(专利权)人:上海连尚网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1