视频拆分方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35660181 阅读:17 留言:0更新日期:2022-11-19 16:58
本申请涉及一种视频拆分方法、装置、计算机设备和存储介质。所述方法包括:获取待处理视频中各目标视频片段对应的音频片段和台词文本;将各音频片段中属于人声的音频帧,作为相应音频片段中的目标音频帧;提取每帧目标音频帧各自的特征表示,并根据相邻音频片段中的目标音频帧的特征表示,确定相邻目标视频片段间的人声语义相关度;提取每个目标视频片段对应的台词文本的特征表示,并根据相邻目标视频片段的台词文本的特征表示,确定相邻目标视频片段间的内容语义相关度;基于相邻目标视频片段间的人声语义相关度和内容语义相关度,对待处理视频进行情节拆分,得到多个子视频。采用本方法能够对视频进行自动地情节划分。本方法能够对视频进行自动地情节划分。本方法能够对视频进行自动地情节划分。

【技术实现步骤摘要】
视频拆分方法、装置、计算机设备和存储介质


[0001]本申请涉及视频处理
,特别是涉及一种视频拆分方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着多媒体技术的发展,电影、电视剧以及短视频等视频作品的资源越来越丰富。人们通常可以通过故事简介、海报等方式对视频作品的内容进行简单了解,在观看视频作品时可以通过快进或者选择特定时间点的方式,跳转至相应的情节段落进行观看。
[0003]为了在不影响视频作品的观看体验的基础上方便快速了解剧情,通常可以采用标注故事线的方式,将视频作品的内容划分成各个不同的情节段落,人们可以根据标注的故事线直接跳转至感兴趣的情节段落进行观看。
[0004]目前常用的方式是通过人工观看完整的视频,以手动标注的方式定位每个情节段落。然而,人工标注的方式需要耗费大量的人力资源,为了保证没有遗漏剧情发展,甚至需要反复观看整个视频,耗时太长且效率低下。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够快速定位视频内容中各个情节段落的视频拆分方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]一方面,本申请提供了一种视频拆分方法。所述方法包括:获取待处理视频中各目标视频片段对应的音频片段和台词文本,其中,每个音频片段包括多个音频帧;将各音频片段中属于人声的音频帧,作为相应音频片段中的目标音频帧;提取每帧目标音频帧各自的特征表示,并根据相邻音频片段中的目标音频帧的特征表示,确定相邻目标视频片段间的人声语义相关度;提取每个目标视频片段对应的台词文本的特征表示,并根据相邻目标视频片段的台词文本的特征表示,确定相邻目标视频片段间的内容语义相关度;基于相邻目标视频片段间的人声语义相关度和内容语义相关度,对所述待处理视频进行情节拆分,得到多个子视频。
[0007]另一方面,本申请还提供了一种视频拆分装置。所述装置包括:获取模块,用于获取待处理视频中各目标视频片段对应的音频片段和台词文本,其中,每个音频片段包括多个音频帧;确定模块,用于将各音频片段中属于人声的音频帧,作为相应音频片段中的目标音频帧;提取模块,用于提取每帧目标音频帧各自的特征表示,并根据相邻音频片段中的目标音频帧的特征表示,确定相邻目标视频片段间的人声语义相关度;所述提取模块,还用于提取每个目标视频片段对应的台词文本的特征表示,并根
据相邻目标视频片段的台词文本的特征表示,确定相邻目标视频片段间的内容语义相关度;拆分模块,用于基于相邻目标视频片段间的人声语义相关度和内容语义相关度,对所述待处理视频进行情节拆分,得到多个子视频。
[0008]另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述视频拆分方法的步骤。
[0009]另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述视频拆分方法的步骤。
[0010]另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述视频拆分方法的步骤。
[0011]上述视频拆分方法、装置、计算机设备、存储介质和计算机程序产品,通过根据各个目标视频片段的音频片段中属于人声的目标音频帧的特征表示,确定相邻目标视频片段间的人声语义相关度,从而在音频维度上衡量相邻目标视频片段间的相似性;根据各个目标视频片段的台词文本的特征表示,确定相邻目标视频片段间的内容语义相关度,从而在文本维度上衡量相邻视频片段间的相似性;由此,基于相邻目标视频片段间的人声语义相关度和内容语义相关度,对待处理视频进行情节拆分,结合人声语义相关度和内容语义相关度作为对情节判断的依据,两种维度之间相互补充,并共同作为音频语义的表征,能够避免从画面纬度上识别容易受到拍摄手法干扰的问题,能够准确确定出相邻情节之间的分界线,精确定位情节拆条的时间点。基于此对待处理视频进行情节拆分,拆分结果更加准确。基于上述方法,能够自动定位视频中的各个情节段落,大大提升了效率,尤其对于大批量处理任务或者长视频处理任务而言,效率提升更为显著。
附图说明
[0012]图1为一个实施例中视频拆分方法的应用环境图;图2为一个实施例中视频拆分方法的流程示意图;图3为一个实施例中目标音频帧之间的特征相似度的计算原理示意图;图4为一个实施例中Transformer模型的网络架构示意图;图5为一个实施例中通过滑动窗遍历视频片段的示意图;图6为一个实施例中人声分类识别模型的网络架构的示意图;图7为一个实施例中对台词文本进行处理得到特征表示的示意图;图8为一个实施例中视频拆分方法的整体流程示意图;图9为一个实施例中对音频数据进行处理的流程示意图;图10为一个实施例中视频拆分装置的结构框图;图11为一个实施例中计算机设备的内部结构图。
具体实施方式
[0013]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不
用于限定本申请。
[0014]用户在观看视频的过程中,可以通过倍速或拖动进度条的方式快进非感兴趣的情节和镜头。但用户并不知道视频在哪一时刻播放感兴趣的情节,也不知道视频某一时刻播放的情节是否感兴趣,用户需要反复来回观看才能准确定位至感兴趣的部分,效率低下。
[0015]有鉴于此,本申请实施例提供一种视频拆分方法,通过结合人声语义和内容语义共同来进行对视频的情节段落进行划分,能够根据视频自带的音轨对每个情节之间的分界线进行识别和定位,节省大量的人工标注成本以及时间成本,显著提高了效率。同时,以音频维度和台词维度对视频中的情节进行划分,能够降低在情节拆条划分上的难度,解决了从视觉维度拆分时面临的因存在插叙、倒叙等拍摄手法所导致的情节划分不准确的问题。
[0016]其中,情节指的是构成视频内容的要素,情节要素之间的逻辑组合决定了视频所描述的故事的发展方向。人物性格与环境、他人、自我的冲突构成了情节的基本要素。通常,同一个情节中的内容具有一定的逻辑性关联。
[0017]本申请实施例提供的视频拆分方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104连接以进行通信。终端102和服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
[0018]终端102或服务器104获取待处理视频,并按照分镜维度对待处理视频进行划分,得到多个视频片段。在划分得到的多个视频片段中,确定多个目标视频片段,以用于后续的相关度计算。终端102或服务器104获取各个目标视频片段对应的音频片段,并提取各个目标视频片段的台词文本。
[0019]一方面,基于各个目标视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频拆分方法,其特征在于,所述方法包括:获取待处理视频中各目标视频片段对应的音频片段和台词文本,其中,每个音频片段包括多个音频帧;将各音频片段中属于人声的音频帧,作为相应音频片段中的目标音频帧;提取每帧目标音频帧各自的特征表示,并根据相邻音频片段中的目标音频帧的特征表示,确定相邻目标视频片段间的人声语义相关度;提取每个目标视频片段对应的台词文本的特征表示,并根据相邻目标视频片段的台词文本的特征表示,确定相邻目标视频片段间的内容语义相关度;基于相邻目标视频片段间的人声语义相关度和内容语义相关度,对所述待处理视频进行情节拆分,得到多个子视频。2.根据权利要求1所述的方法,其特征在于,所述获取待处理视频中各目标视频片段对应的音频片段和台词文本之前,所述方法还包括:确定所述待处理视频中的待处理的当前视频帧,所述当前视频帧为所述待处理视频中的任一视频帧;计算所述当前视频帧与在前视频帧之间的图像相似度,所述在前视频帧为时间顺序在所述当前视频帧之前的视频帧;当基于所述图像相似度确定满足视频分割条件时,以所述当前视频帧为分割界限,对所述待处理视频进行分割;将所述待处理视频帧在所述当前视频帧之后的在后视频帧,作为下次的当前视频帧,并返回至计算所述当前视频帧与在前视频帧之间的图像相似度的步骤继续执行,直至遍历完成全部视频帧后,得到分割而成的多个视频片段;基于分割得到的多个视频片段确定多个目标视频片段。3.根据权利要求2所述的方法,其特征在于,所述基于分割得到的多个视频片段确定多个目标视频片段,包括:对分割得到的各视频片段分别进行人声识别,并将识别到人声的视频片段作为目标视频片段。4.根据权利要求1所述的方法,其特征在于,所述获取待处理视频中各目标视频片段对应的音频片段和台词文本,包括:对于每个目标视频片段,提取所述目标视频片段中的音频数据,得到对应于每个目标视频片段的音频片段;获取所述待处理视频对应的台词文本,并按照各个目标视频片段的时间信息,从所述待处理视频对应的台词文本中获取各目标视频片段所对应的台词文本。5.根据权利要求1所述的方法,其特征在于,所述将各音频片段中属于人声的音频帧,作为相应音频片段中的目标音频帧,包括:获取各个音频片段的音频时域信号,对所述音频时域信号进行时域特征处理,得到时域特征,所述时域特征包括中间时域特征和目标时域特征;对所述各个音频片段的音频时域信号进行转换,得到各个音频片段的音频频域信号,并对所述音频频域信号进行频域特征处理,得到频域特征,所述频域特征包括中间频域特征和目标频域特征;
基于所述中间时域特征和所述中间频域特征进行特征融合,得到目标融合特征;对于各音频片段,融合相对应的目标时域特征、目标频域特征、以及目标融合特征,得到各音频片段的音频特征;基于各个音频片段的音频特征识别得到各个音频片段中的目标音频帧,所述目标音频帧为所述音频片段中包含人声的音频帧。6.根据权利要求5所述的方法,其特征在于,所述中间时域特征的数量为多个,每个中间时域特征对应一个特征提取阶段;所述中间频域特征的数量为多个,每个中间频域特征对应一个特征提取阶段;所述基于所述中间时域特征和所述中间频域特征进行特征融合,得到目标融合特征,包括:对于当前的特征提取阶段,获取与前次的特征提取阶段对应的中间融合特征,其中,当前的特征提取阶段为除首次外的任一次特征提取阶段;将所述中间融合特征与当前的特征提取阶段所对应的中间时域特征和中间频域特征进行特征融合,得到与当前的特征提取阶段对应的中间融合特征,当前的特征提取阶段对应的中间融合特征用于参与到下一次的特征融合过程中;获取最后一个特征提取阶段所对应的中间融合特征,作为目标融合特征。7.根据权利要求6所述的方法,其特征在于,所述将所述中间融合特征与当前的特征提取阶段所对应的中间时域特征和中间频域特征进行特征融合,得到与当前的特征提取阶段对应的中间融合特征,包括:调整当前的特征提取阶段所对应的中间时域特征的特征维度,以使当前的特征提取阶段所对应的中间时域特征与中间频域特征的特征维度一致;将前次特征提取阶段所获得的中间融合特征、以及维度一致的中间时...

【专利技术属性】
技术研发人员:冯鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1