用于分割视频剪辑的方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:28771081 阅读:14 留言:0更新日期:2021-06-09 10:58
根据本公开的示例实施例,提供了一种用于分割视频剪辑的方法、装置、设备、计算机可读存储介质和计算机程序产品。涉及人工智能领域,尤其涉及直播领域、视频处理和深度学习技术领域。根据一实施例的具体实现方案为:从第一视频剪辑确定图像数据和音频数据;确定表示音频数据的文本,文本包括按时间排序的多个语句元素,时间指示多个语句元素在第一视频剪辑中出现的时间范围;基于多个语句元素和与多个语句元素在时间上相对应的图像数据,确定第一视频剪辑中的、与多个语句元素相对应的多个视频片段的特征;基于多个视频片段的特征,对第一视频剪辑进行分割以获取多个第二视频剪辑。根据本公开的实施例,可以有效地分割视频,提升用户体验。户体验。户体验。

【技术实现步骤摘要】
用于分割视频剪辑的方法、装置、设备、介质和程序产品


[0001]本公开涉及人工智能领域,具体涉及直播领域,并且更具体地,涉及用于分割视频剪辑的方法、装置、设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]伴随着互联网的普及和计算机技术的发展,人们对于知识的诉求正在不断提升,并且伴随着视频的发展,人们对于知识的获取方式也发生改变。越来越多的用户选择利用互联网视频进行学习。网络上的视频(例如泛知识直播视频)可以包含科学科普、社科人文、财经、校园学习、职业职场相关的知识点内容讲解,其中一个视频可以包括多个知识点。通常需要将一个长视频分割成关于每个知识点的小视频,以方便用户查找和观看。然而,人工手动操作剪辑需要一定的技术基础,且耗时较长。因此,需要一种针对视频的自动剪辑技术,以将持续数小时的视频自动裁剪为多段有吸引力的短视频片段,其中每段短视频包含一个相对独立完整的内容/知识点。

技术实现思路

[0003]根据本公开的示例实施例,提供了一种用于分割视频剪辑的方法、装置、设备、计算机可读存储介质和计算机程序产品。
[0004]在本公开的第一方面中,提供了一种用于分割视频剪辑的方法,包括:从第一视频剪辑确定图像数据和音频数据;确定表示音频数据的文本,文本包括按时间排序的多个语句元素,时间指示多个语句元素在第一视频剪辑中出现的时间范围;基于多个语句元素和与多个语句元素在时间上相对应的图像数据,确定第一视频剪辑中的、与多个语句元素相对应的多个视频片段的特征;基于多个视频片段的特征,对第一视频剪辑进行分割以获取多个第二视频剪辑。
[0005]在本公开的第二方面中,提供了一种用于分割视频剪辑的装置,包括:数据分离模块,被配置为从第一视频剪辑确定图像数据和音频数据;第一文本确定模块,被配置为确定表示音频数据的文本,文本包括按时间排序的多个语句元素,时间指示多个语句元素在第一视频剪辑中出现的时间范围;第一片段特征确定模块,被配置为基于多个语句元素和与多个语句元素在时间上相对应的图像数据,确定第一视频剪辑中的、与多个语句元素相对应的多个视频片段的特征;以及第一视频剪辑模块,被配置为基于多个视频片段的特征,对第一视频剪辑进行分割以获取多个第二视频剪辑。
[0006]在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
[0007]在本公开的第四方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
[0008]在本公开的第五方面中,提供了一种计算机程序产品,包括计算机程序指令,该计
算机程序指令被处理器实现如本公开的第一方面的方法。
[0009]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0010]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素。附图用于更好地理解本方案,不构成对本公开的限定,其中:
[0011]图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
[0012]图2示出了根据本公开的一些实施例的用于分割视频剪辑的过程的示例的流程图;
[0013]图3示出了根据本公开的一些实施例的对视频的片段进行标识的示意图;
[0014]图4示出了根据本公开的实施例的用于分割视频剪辑的装置的示意框图;以及
[0015]图5示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
[0016]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0017]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0018]在本公开的实施例的描述中,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后基于训练得到的参数集对给定的输入进行处理以生成对应的输出。“模型”有时也可以被称为“神经网络”、“学习模型”、“学习网络”或“网络”。这些术语在本文中可互换地使用。
[0019]如以上提及的,需要一种将长视频自动裁剪为包括相对独立的知识点的小视频的解决方案。在传统方案中,通常将连续待分割视频的7帧特征输入边界感知网络,然后对该特征进行处理来分割视频。然而,上述传统方案只适用于场景转换特征明显的视频。该方案难以适用于没有明显的场景转换及音频特征变化的视频。
[0020]本公开的示例实施例提出了一种用于分割视频剪辑的方案。在该方案中,首先获取待分割视频剪辑的图像数据和音频数据。然后确定与音频数据相关的文本中的每个语句元素相对应的图像特征。接着将文本特征和图像特征融合以确定每个语句元素的特征。最后根据每个语句的特征对视频剪辑进行分割。根据本公开的实施例,通过语句元素的文本特征和图像特征的多模态特征融合,可以准确地确定每个语句的特征。通过句子级别的特征可以有效地识别视频剪辑中的各个小的视频剪辑的起止边界,从而可以自动、高效、准确
地分割视频剪辑。
[0021]图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。应当理解,图1所示出的环境100仅仅是示例性的,而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示,环境100包括第一视频剪辑110、计算设备120以及第二视频剪辑130

1、130

2和130

3(下文可以被一起称为多个第二视频剪辑130)。这里虽然仅仅图示为将1个第一视频剪辑分割为3个第二视频剪辑,但数目仅仅是示例性的。还可以同时将多个第一视频剪辑分割为不同数目的第二视频剪辑,本公开在此不做限制。
[0022]第一视频剪辑110可以是任何格式的视频,包括但不限于、MPEG、AVI、nAVI、ASF、MOV、3GP、WMV、DivX、XviD、RM、RMVB、FLV/F4V格式的视频。第一视频剪辑110可以是任何类型的视频,例如新闻视频、综艺节目视频、泛知识视频等。在下文中,以泛知识视频为示例进行说明,但这不旨在于限制。泛知识视频是将观看者与创作者分离的一种教学视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于分割视频剪辑的方法,包括:从第一视频剪辑确定图像数据和音频数据;确定表示所述音频数据的文本,所述文本包括按时间排序的多个语句元素,所述时间指示所述多个语句元素在所述第一视频剪辑中出现的时间范围;基于所述多个语句元素和与所述多个语句元素在时间上相对应的图像数据,确定所述第一视频剪辑中的、与所述多个语句元素相对应的多个视频片段的特征;以及基于多个视频片段的特征,对所述第一视频剪辑进行分割以获取多个第二视频剪辑。2.根据权利要求1所述的方法,其中基于所述多个语句元素和与所述多个语句元素相对应的图像数据,确定所述第一视频剪辑中的、与所述多个语句元素相对应的多个视频片段的特征包括:确定多个语句元素的第一特征;确定所述第一视频剪辑中的、所述多个语句元素所在的图像帧的第二特征;以及对所述第一特征和所述第二特征进行组合,生成所述视频片段的特征。3.根据权利要求1所述的方法,其中基于多个视频片段的特征,对所述第一视频剪辑进行分割以获取多个第二视频剪辑包括:将所述多个视频片段的特征分类为片段特征和非片段特征;以及基于与被分类为片段特征的视频片段相对应的语句元素的时间范围,对所述第一视频剪辑进行分割,以获取所述多个第二视频剪辑。4.根据权利要求1所述的方法,还包括:获取所述多个第二视频剪辑中的、在时间上相邻的第三视频剪辑和第四视频剪辑;确定所述第三视频剪辑的第三特征和所述第四视频剪辑的第四特征;以及如果确定所述第三特征和所述第四特征之间的匹配度大于阈值匹配度,将所述第三视频剪辑和所述第四视频剪辑合并。5.根据权利要求1所述的方法,其中确定表示所述音频数据的文本包括:将所述音频数据转换为文本数据;对所述文本数据中的停顿信息进行标注;以及基于经标注的文本数据,确定表示所述音频数据的文本。6.一种用于分割视频剪辑的装置,包括:数据分离模块,被配置为从第一视频剪辑确定图像数据和音频数据;第一文本确定模块,被配置为确定表示所述音频数据的文本,所述文本包括按时间排序的多个语句元素,所述时间指示所述多个语句元素在所述第一视频剪辑中出现的时间范围;第一片段特征确定模块,被配置为基于所述多个语句元素和与所述多个语句元素在时间上相对应的图像数据,确定所述第一视频剪辑中的、与所述多个语句元素相对应的多...

【专利技术属性】
技术研发人员:武莹彧廖玺举李远杭关云鹏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1