视频切分方法、装置、设备、系统及存储介质制造方法及图纸

技术编号:31226990 阅读:18 留言:0更新日期:2021-12-08 09:34
本公开涉及一种视频切分方法、装置、设备、系统及存储介质,该方法包括:获取目标视频的视频特征数据,视频特征数据包括音频数据、字幕数据和镜头数据;对音频数据进行切分,得到多个音频数据片段;基于镜头数据对字幕数据进行切分,得到多个字幕子数据;基于音频数据片段和字幕子数据对目标视频进行切分,得到多个视频片段。根据本公开实施例,实现了能够准确的切分目标视频,以进一步使得用户通过浏览目标视频切分后的视频片段,从目标视频中快速获取准确的信息,以准确且快速的浏览目标视频中所包含的信息。所包含的信息。所包含的信息。

【技术实现步骤摘要】
视频切分方法、装置、设备、系统及存储介质


[0001]本公开涉及视频处理
,尤其涉及一种视频切分方法、装置、设备、系统及存储介质。

技术介绍

[0002]随着数字媒体技术的高速发展,各种各样的视频急剧增加,例如,新闻视频、综艺视频、以及影音视频等。
[0003]为了使用户快速浏览视频中所包含的信息,需要对视频进行切分。但是,目前的视频切分方法只基于单一视频特征进行视频切分,视频切分的准确性较低,因此,不能使用户从视频中快速获取准确的信息。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种视频切分方法、装置、设备、系统及存储介质。
[0005]第一方面,本公开提供了一种视频切分方法,该方法包括:获取目标视频的视频特征数据,视频特征数据包括音频数据、字幕数据和镜头数据,镜头数据基于镜头边缘检测技术切分得到;对音频数据进行切分,得到多个音频数据片段;基于镜头数据对所述字幕数据进行切分,得到多个字幕子数据;基于音频数据片段和字幕子数据对目标视频进行切分,得到多个视频片段。
[0006]第二方面,本公开提供了一种视频切分装置,该装置包括:视频特征数据获取模块,用于获取目标视频的视频特征数据,视频特征数据包括音频数据、字幕数据和镜头数据,镜头数据基于镜头边缘检测技术切分得到;音频数据切分模块,用于对音频数据进行切分,得到多个音频数据片段;字幕数据切分模块,用于基于镜头数据对所述字幕数据进行切分,得到多个字幕子数据;目标视频切分模块,用于基于音频数据片段和字幕子数据对所述目标视频进行切分,得到多个视频片段。
[0007]第三方面,本公开实施例还提供了一种视频切分设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现第一方面所提供的视频切分方法。
[0008]第四方面,本公开实施例还提供了一种视频切分系统,该系统包括:视频切分设备和显示设备;视频切分设备,用于获取目标视频的视频特征数据,视频特征数据包括音频数据、
字幕数据和镜头数据,镜头数据基于镜头边缘检测技术切分得到;对音频数据进行切分,得到多个音频数据片段;基于镜头数据对字幕数据进行切分,得到多个字幕子数据;基于音频数据片段和字幕子数据对目标视频进行切分,得到多个视频片段;显示设备,用于接收视频片段显示操作;响应于视频片段显示操作,显示视频片段显示操作对应的视频片段。
[0009]第五方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面所提供的视频切分方法。
[0010]本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例的一种视频切分方法、装置、设备、系统及存储介质,能够获取目标视频的包括音频数据、字幕数据和镜头数据等视频特征数据,镜头数据基于镜头边缘检测技术切分得到,使得可以获取到目标视频的多模态的视频特征数据,对音频数据进行切分,得到多个音频数据片段,然后基于镜头数据对字幕数据进行切分,得到多个字幕子数据,由此,可以基于多模态的视频特征数据,并分别对视频特征数据中的音频数据,以及利用镜头数据切分字幕数据,进一步基于音频数据片段和字幕子数据切分目标视频,使得将获取到的多模态的视频特征数据融合后切分目标视频,因此,能够准确的切分目标视频,以进一步使得用户通过浏览目标视频切分后的视频片段,从目标视频中快速获取准确的信息,以准确且快速的浏览目标视频中所包含的信息。
附图说明
[0011]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0012]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本公开实施例提供的一种视频切分方法的流程示意图;图2为本公开实施例提供的一种视频切分方法的整体流程示意图;图3为本公开实施例提供的另一种视频切分方法的流程示意图;图4为本公开实施例提供的一种对两个相邻的视频片段进行合并的流程示意图;图5为本公开实施例提供的另一种视频切分方法的整体流程示意图;图6为本公开实施例提供的一种视频切分装置的结构示意图;图7为本公开实施例提供的一种视频切分设备的结构示意图;图8为本公开实施例提供的一种视频切分系统的结构示意图。
具体实施方式
[0014]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0015]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采
用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0016]随着数字媒体技术的高速发展,各种各样的视频急剧增加,例如,新闻视频、综艺视频、短视频、以及影音视频等。
[0017]为了使用户快速浏览视频中所包含的信息,需要对视频进行切分。目前的视频切分方法一般基于目标视频的音频特征、视频特征以及文本特征中的单一特征进行视频切分。
[0018]例如,新闻视频是一种典型的视频类型,与其它视频类型相比,新闻视频由一系列新闻故事构成,结构特征比较明显,准确对新闻故事进行探测与切分可以使得用户对新闻视频的自动检索与语义理解产生重要作用,并使用户在更高语义层次上快速浏览一段新闻节目中包含的信息。
[0019]以切分新闻视频为例,从新闻视频中选取演播室场景与主持人同在的场景作为切分特征,该切分特征相当于新闻场景的视频特征,以基于该切分特征识别新闻视频中的切分点,并进一步基于识别得到的切分点,切分新闻视频。
[0020]但是,针对上述切分方式,专利技术人发现,只基于单一视频特征进行视频切分的方式准确性较低,因此,不能使用户从视频中快速获取准确的信息。
[0021]为了提高目标视频的切分准确性和稳定性,目前的视频切分方法还利用目标视频的音频特征、视频特征以及文本特征中的两种或三种特征进行视频切分。
[0022]再次以切分新闻视频为例,将新闻视频分割成音频流和视频流,然后利用时间轴融合音频候选点、视频候选点、主持人镜头和主题字幕,对新闻视频进行故事单元分割,以实现对新闻视频进行切分。
[0023]但是,针对上述切分方式,这种切分方式本质上利用主题字幕帧和主持人镜头对新闻故事单元进行分割,因此,导致没有实现音频等模态特征与视觉特征的有效融合;另外,新闻视频并不完全按照主持人镜头、新闻故事内容的叙事结构来组织,如无播音员新闻和多标题新闻,这类新闻不以播音员镜头开始,而是直接播放新闻详细内容,并且同一新闻包含多个新闻标题,导致基于播音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频切分方法,其特征在于,包括:获取目标视频的视频特征数据,所述视频特征数据包括音频数据、字幕数据和镜头数据,所述镜头数据基于镜头边缘检测技术切分得到;对所述音频数据进行切分,得到多个音频数据片段;基于所述镜头数据对所述字幕数据进行切分,得到多个字幕子数据;基于所述音频数据片段和所述字幕子数据对所述目标视频进行切分,得到多个视频片段。2.根据权利要求1所述的方法,其特征在于,所述对所述音频数据进行切分,得到多个音频数据片段,包括:将所述音频数据中的纯音乐部分和无意义部分替换为空白数据,得到替换后的音频数据;基于所述空白数据,对所述替换后的音频数据进行切分,得到所述多个音频数据片段。3.根据权利要求1所述的方法,其特征在于,所述对所述音频数据进行切分,得到多个音频数据片段,包括:将所述音频数据输入预先训练好的转场语句识别模型,得到所述转场语句识别模型输出的转场数据;基于所述转场数据,对所述音频数据进行切分,得到所述多个音频数据片段。4.根据权利要求1所述的方法,其特征在于,所述音频数据包括多个第一音频子数据,每个所述第一音频子数据对应一个语句;其中,所述对所述音频数据进行切分,得到多个音频数据片段,包括:基于预设的正则表达式,在所述音频数据中识别转场数据;基于所述转场数据,对所述音频数据进行切分,得到所述多个音频数据片段。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述音频数据包括目标视频的语音文本。6.根据权利要求1所述的方法,其特征在于,每个所述字幕子数据对应同一个镜头场景;其中,在所述基于所述镜头数据对所述字幕数据进行切分,得到多个字幕子数据之后,所述方法还包括:将包含相同字幕的多个连续字幕子数据合并为一类,得到聚类后的字幕子数据;其中,所述基于所述音频数据片段和所述字幕子数据对所述目标视频进行切分,得到多个视频片段,包括:基于所述音频数据片段和所述聚类后的字幕子数据对所述目标视频进行切分,得到多个视频片段。7.根据权利要求6所述的方法,其特征在于,在所述将包含相同字幕的多个连续字幕子数据合并为一类,得到聚类后的字幕子数据之后,所述方法还包括:将紧密程度满足预设密度条件的多个初步聚类后的字幕子数据合并为一类,得到二次聚类后的字幕子数据;其中,所述基于所述音频数据片段和所述聚类后的字幕子数据对所述目标视频进行切分,得到多个视频片段,包括:
基于所述音频数据片段和所述二次聚类后的字幕子数据对所述目标视频进行切分,得到多个视频片段。8.根据权利要求1或权利要求6

7中任一项所述的方法,其特征在于,所述字幕数据包括所述目标视频中的字幕文本。9.根据权利要求1所述的方法,其特征在于,所述基于所述音频数据片段和所述字幕子数据对所述目标视频进行切分,得到多个视频片段,包括:根据所述字幕子数据对所述音频数据片段进行修正,得到多个修正后的音频片段数据;基于所述多个修正后的音频片段数据,对所述目标视频进行切分,得到所述多个视频片段。10.根据权利要求9所述的方法,其特征在于,所述根据所述字幕子数据对所述音频数据片段进行修正,得到多个修正后的...

【专利技术属性】
技术研发人员:刘宏宇马先钦张佳旭王璋盛罗引王磊
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1