一种多模态对齐方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41705614 阅读:20 留言:0更新日期:2024-06-19 12:37
本发明专利技术实施例提供了一种多模态对齐方法、装置、电子设备及存储介质,包括:获取剧情文本,获取与剧情文本关联的视频;在视频中,确定与剧情文本的文本语义匹配的第一对齐信息,第一对齐信息包括剧情文本对应的初始视频片段,以及初始视频片段对应的时间信息;提取视频中视频帧的视觉特征;基于视觉特征,将视频划分为至少两个目标视频片段;基于初始视频片段的时间信息分别与至少两个目标视频片段的时间信息的时间交集,将第一对齐信息调整为第二对齐信息。通过本发明专利技术实施例提供的多模态对齐方法、装置、电子设备及存储介质,能够提高文本与视频内容匹配的准确度。

【技术实现步骤摘要】

本专利技术涉及多媒体应用,特别是涉及一种多模态对齐方法、装置、电子设备及存储介质


技术介绍

1、在现代的数字媒体环境中,视频内容的提取和合成成为越来越重要的应用。其中,通过多模态对齐算法为一句话匹配相应的视频剧情是一个典型的应用,这对于视频制作人员来说是极其有用的工具,例如,在制作视频解说的场景中为解说方案寻找相应的视频画面。

2、但是,现有的多模态对齐算法对于文本与视频内容匹配的准确度还有待提高。


技术实现思路

1、本专利技术实施例的目的在于提供一种多模态对齐方法、装置、电子设备及存储介质,以提高文本与视频内容匹配的准确度。具体技术方案如下:

2、第一方面,提供了一种多模态对齐方法,包括:

3、获取剧情文本,获取与剧情文本关联的视频;

4、在所述视频中,确定与所述剧情文本的文本语义匹配的第一对齐信息,所述第一对齐信息包括所述剧情文本对应的初始视频片段,以及所述初始视频片段对应的时间信息;

5、提取所述视频中视频帧的视觉特征;</p>

6、基于本文档来自技高网...

【技术保护点】

1.一种多模态对齐方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述视觉特征包括:颜色特征,和/或,亮度特征;

3.根据权利要求1所述的方法,其特征在于,所述视觉特征包括:颜色特征,和/或,亮度特征;

4.根据权利要求1所述的方法,其特征在于,所述基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集,将所述第一对齐信息调整为第二对齐信息,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集,将所述第一对齐信息调...

【技术特征摘要】

1.一种多模态对齐方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述视觉特征包括:颜色特征,和/或,亮度特征;

3.根据权利要求1所述的方法,其特征在于,所述视觉特征包括:颜色特征,和/或,亮度特征;

4.根据权利要求1所述的方法,其特征在于,所述基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集,将所述第一对齐信息调整为第二对齐信息,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述初始视频片段的时间信息分别与所述至少两个目标视频片段的时间信息的时间交集,将所述第一对齐信息调整为第二对齐信息,包括:

6.根据权利要求5所述的方法,其特征在于,当时间交集大于预设时长所...

【专利技术属性】
技术研发人员:周晨
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1