视频拆条方法和装置制造方法及图纸

技术编号:30424253 阅读:25 留言:0更新日期:2021-10-24 16:54
本申请提供了一种视频拆条方法和装置,根据多个模态的信息来决定视频拆分点,从而提高视频拆条的准确性。第一方面,提供了一种视频拆条方法,该方法包括:根据视频的镜头切换点和视频的语音停顿点获取视频的多个细粒度拆条片段;提取多个细粒度拆条片段中每个细粒度拆条片段的特征,特征包括图片特征、音频特征;根据第一神经网络模型对多个细粒度拆条片段的特征进行处理,以得到视频的拆分点预测序列,拆分点预测序列包括多个拆分点和多个拆分点对应的概率。点对应的概率。点对应的概率。

【技术实现步骤摘要】
视频拆条方法和装置


[0001]本申请涉及视频加工领域,并且更具体地,涉及一种视频拆条方法和装置。

技术介绍

[0002]随着电视广播和互联网视频技术的发展,存储和视频采集设备成本的降低,以及各种智能终端设备的普及,海量视频被生产出来的同时,广大用户对各类视频的点播需求也越来越大。海量的视频需要经过二次加工后形成新媒体节目,最终再呈现给用户。视频拆条是将一段长的视频拆分成多个不同主题的片段,是视频二次加工中最主要和最重要的一个步骤。传统的视频拆条是由人工拆分,即工作人员先浏览视频素材,理解视频后再进行拆分。这种拆分方法效率低、实时性差,不能满足日益增长的多媒体市场需求。
[0003]已有的视频自动拆条方法只根据单个模态的信息来决策拆分点,对于结构复杂、内容多样的视频,这种拆条方法可能导致拆分不准确。

技术实现思路

[0004]本申请提供一种视频拆条方法和装置,根据多个模态的信息来决定视频拆分点,从而提高视频拆条的准确性。
[0005]第一方面,提供了一种视频拆条方法,该方法包括:根据视频的镜头切换点和视频的语音停顿点获取视频的多个细粒度拆条片段;提取多个细粒度拆条片段中每个细粒度拆条片段的特征,特征包括图片特征、音频特征;根据第一神经网络模型对多个细粒度拆条片段的特征进行处理,以得到视频的拆分点预测序列,拆分点预测序列包括多个拆分点和多个拆分点对应的概率。
[0006]对于结构复杂、内容多样的新闻视频或互联网视频,准确的拆条需要系统性的视频内容理解。视频拆条需要解决两个主要问题,一是要保证拆条的边界干净,即画面完整性和音频完整性,二是要保证拆分点的准确性。本申请实施例提供的视频拆条方法,先根据视频的镜头切换点和视频的语音停顿点获取视频的多个细粒度拆条片段,保证拆条的边界干净;然后根据视频片段的图片特征、音频特征等多个模态特征,结合神经网络模型得到视频的拆分点预测序列,保证拆分点的准确性。
[0007]结合第一方面,在第一方面的某些实现方式中,特征还包括字幕特征。
[0008]对于有字幕的视频,本申请实施例的视频拆条方法还包括根据视频片段的字幕特征来获取视频的拆分点预测序列。
[0009]结合第一方面,在第一方面的某些实现方式中,第一神经网络模型为多模态融合拆条检测器模型。
[0010]结合第一方面,在第一方面的某些实现方式中,根据第一神经网络模型对多个细粒度拆条片段的特征进行处理之前,该方法还包括:对多个细粒度拆条片段的特征在时间维度上进行对齐。
[0011]将多个细粒度拆条片段的特征在时间维度上进行对齐,使得同一时间段内的图片
特征、音频特征和/或字幕特征为一组特征,提高视频拆条的准确性。
[0012]第二方面,提供了一种训练神经网络模型的方法,该方法包括:获取训练数据,训练数据包括多个视频片段的特征和多个视频片段对应的标准拆分点序列,特征包括图片特征、音频特征;根据训练数据对初始神经网络模型进行训练;当神经网络模型根据多个视频片段的特征得到的视频的拆分点预测序列与标准拆分点序列的差异满足预设条件时,得到第一神经网络模型,拆分点预测序列包括一个或多个拆分点和一个或多个拆分点对应的概率。
[0013]本申请实施例的方法还包括神经网络模型的训练方法,该训练好的神经网络模型可以用于执行根据细粒度拆条片段的特征得到拆分点预测序列,提高视频拆条的准确性。
[0014]结合第二方面,在第二方面的某些实现方式中,特征还包括字幕特征。
[0015]第三方面,提供了一种视频拆条装置,该装置包括:处理器,用于根据视频的镜头切换点和视频的语音停顿点获取视频的多个细粒度拆条片段;处理器还用于,提取多个细粒度拆条片段中每个细粒度拆条片段的特征,特征包括图片特征、音频特征;处理器还用于,根据第一神经网络模型对多个细粒度拆条片段的特征进行处理,以得到视频的拆分点预测序列,拆分点预测序列包括多个拆分点和多个拆分点对应的概率。
[0016]结合第三方面,在第三方面的某些实现方式中,特征还包括字幕特征。
[0017]结合第三方面,在第三方面的某些实现方式中,第一神经网络模型为多模态融合拆条检测器模型。
[0018]结合第三方面,在第三方面的某些实现方式中,处理器根据第一神经网络模型对一个或多个细粒度拆条片段的特征进行处理之前,处理器还用于:对多个细粒度拆条片段的特征在时间维度上进行对齐。
[0019]第四方面,提供了一种训练神经网络模型的装置,该装置包括:传输接口和处理器;传输接口用于获取训练数据,训练数据包括多个视频片段的特征和多个视频片段对应的标准拆分点序列,特征包括图片特征、音频特征;处理器被配置为用于执行如下步骤:根据训练数据对初始神经网络模型进行训练;当神经网络模型根据多个视频片段的特征得到的视频的拆分点预测序列与标准拆分点序列的差异满足预设条件时,得到第一神经网络模型,拆分点预测序列包括一个或多个拆分点和一个或多个拆分点对应的概率。
[0020]结合第四方面,在第四方面的某些实现方式中,特征还包括字幕特征。
[0021]第五方面,提供了一种充电认证的装置,该装置包括:存储器、处理器,存储器中存储代码和数据,存储器与处理器耦合,处理器运行存储器中的代码使得装置执行上述第一方面或第二方面中的任意一种实现方式中的方法。
[0022]第六方面,提供了一种计算机可读存储介质,其上存储有指令,该指令被执行时执行上述第一方面或第二方面中的任意一种实现方式中的方法。
[0023]第七方面,提供了一种计算机程序产品,包括:指令,当计算机程序产品在计算机上运行时,使得计算机执行上述第一方面或第二方面中的任意一种实现方式中的方法。
[0024]第八方面,提供一种芯片,芯片包括处理器与数据接口,处理器通过数据接口读取存储器上存储的指令,执行上述第一方面或第二方面中的任意一种实现方式中的方法。
[0025]可选地,作为一种实现方式,芯片还可以包括存储器,存储器中存储有指令,处理器用于执行存储器上存储的指令,当指令被执行时,处理器用于执行第一方面或第二方面
中的任意一种实现方式中的方法。
附图说明
[0026]图1是本申请实施例的一种视频拆条系统的架构示意图;
[0027]图2是本申请实施例的一种现有视频拆条方法的示意性框图;
[0028]图3是本申请实施例的一种视频拆条方法的示意性流程图;
[0029]图4是本申请实施例的一种训练神经网络模型的方法;
[0030]图5是本申请实施例的一种视频拆条方法的示意性框图;
[0031]图6是本申请实施例中对视频进行细粒度拆条的方法的示意性框图;
[0032]图7是本申请实施例的多模态融合精确拆条过程的示意性框图;
[0033]图8是本申请实施例的多模态融合拆条检测器的神经网络模型结构;
[0034]图9是本申请实施例的视频拆条装置的硬件结构示意图;
[0035]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频拆条方法,其特征在于,包括:根据视频的镜头切换点和所述视频的语音停顿点获取所述视频的多个细粒度拆条片段;提取所述多个细粒度拆条片段中每个细粒度拆条片段的特征,所述特征包括图片特征、音频特征;根据第一神经网络模型对所述多个细粒度拆条片段的特征进行处理,以得到所述视频的拆分点预测序列,所述拆分点预测序列包括多个拆分点和所述多个拆分点对应的概率。2.根据权利要求1所述的方法,其特征在于,所述特征还包括字幕特征。3.根据权利要求1或2所述的方法,其特征在于,所述第一神经网络模型为多模态融合拆条检测器模型。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据第一神经网络模型对所述多个细粒度拆条片段的特征进行处理之前,所述方法还包括:对所述多个细粒度拆条片段的特征在时间维度上进行对齐。5.一种训练神经网络模型的方法,其特征在于,包括:获取训练数据,所述训练数据包括多个视频片段的特征和所述多个视频片段对应的标准拆分点序列,所述特征包括图片特征、音频特征;根据所述训练数据对初始神经网络模型进行训练;当所述神经网络模型根据所述多个视频片段的特征得到的所述视频的拆分点预测序列与所述标准拆分点序列的差异满足预设条件时,得到第一神经网络模型,所述拆分点预测序列包括一个或多个拆分点和所述一个或多个拆分点对应的概率。6.根据权利要求5所述的方法,其特征在于,所述特征还包括字幕特征。7.一种视频拆条装置,其特征在于,包括:处理器,用于根据视频的镜头切换点和所述视频的语音停顿点获取所述视频的多个细粒度拆条片段;所述处理器还用于,提取所述多个细粒度拆条片段中每个细粒度拆条片段的特征,所述特征包括图片特征、音频特征;所述处理器还用于,根据第一神经网络模型对所述多个细粒度拆条片段的特征进行处理,以得到所述视频的拆分点预测序列,所述拆分点预测序列包括多个拆分点和所述多个拆分点...

【专利技术属性】
技术研发人员:陈大友金鑫涂丹丹
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1