视频切分方法、装置、设备及存储介质制造方法及图纸

技术编号:32466712 阅读:16 留言:0更新日期:2022-03-02 09:25
本公开实施例涉及一种视频切分方法、装置、设备及存储介质,其中,该方法包括:基于视频中的至少一部分视频帧的第一模态数据对该部分视频帧进行目标事件的第一检测处理,得到第一检测结果;基于该部分视频帧的第二模态数据对该部分视频帧进行目标事件的第二检测处理,得到第二检测结果;基于第一检测结果和第二检测结果,从该部分视频帧中确定出发生目标事件的目标帧;基于目标帧对视频进行切分,得到发生目标事件的视频片段。本公开实施例提供的方案能够提高视频切分的准确度和精度。的方案能够提高视频切分的准确度和精度。的方案能够提高视频切分的准确度和精度。

【技术实现步骤摘要】
视频切分方法、装置、设备及存储介质


[0001]本公开实施例涉及视频处理
,尤其涉及一种视频切分方法、装置、设备及存储介质。

技术介绍

[0002]视频切分是视频分析中的一种重要手段,尤其是对于具有人物发言的视频(比如,新闻视频、直播视频)来说,通过视频切分可以将人物发言片段从视频中切分出来,从而方便对发言内容进行分析和总结。但是现有的视频切分方法大多是以单模态数据(比如,音频、图像或字幕)作为依据进行的切分,数据较为单一,精确度较低。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种视频切分方法、装置、设备及存储介质。
[0004]本公开实施例的第一方面提供了一种视频切分方法,该方法包括:基于视频中的至少一部分视频帧的第一模态数据对该部分视频帧进行目标事件的第一检测处理,得到第一检测结果;基于该部分视频帧的第二模态数据对该部分视频帧进行目标事件的第二检测处理,得到第二检测结果;基于第一检测结果和第二检测结果,从该部分视频帧中确定出发生目标事件的目标帧;基于目标帧对视频进行切分,得到发生目标事件的视频片段。
[0005]本公开实施例的第二方面提供了一种视频切分方法,该方法包括:
[0006]基于直播视频中的至少一部分视频帧的第一模态数据对该部分视频帧进行发言人检测处理,得到第一检测结果;基于该部分视频帧的第二模态数据对该部分视频帧进行发言人检测处理,得到第二检测结果;基于第一检测结果和第二检测结果,从该部分视频帧中确定出有人发言的目标帧;基于目标帧对直播视频进行切分,得到直播视频中有人发言的视频片段。
[0007]本公开实施例的第三方面提供了一种视频切分方法,该方法包括:
[0008]对视频中的至少一部分视频帧的图像数据进行发言人检测处理,得到第一检测结果;对该部分视频帧的音频数据进行人声检测处理,得到第二检测结果;基于第一检测结果和第二检测结果,从该部分视频帧中确定出有人发言的目标帧;基于目标帧对视频进行切分,得到视频中有人发言的视频片段。
[0009]本公开实施例的第四方面提供了一种视频切分装置,该装置包括:
[0010]第一检测模块,用于基于视频中的至少一部分视频帧的第一模态数据对该部分视频帧进行目标事件的第一检测处理,得到第一检测结果。
[0011]第二检测模块,用于基于视频中该部分视频帧的第二模态数据对该部分视频帧进行目标事件的第二检测处理,得到第二检测结果。
[0012]确定模块,用于基于第一检测结果和第二检测结果,从该部分视频帧中确定出发生所述目标事件的目标帧。
[0013]第一切分模块,用于基于目标帧对视频进行切分,得到发生目标事件的视频片段。
[0014]本公开实施例的第五方面提供了一种视频切分装置,该装置包括:
[0015]第一检测模块,用于基于直播视频中的至少一部分视频帧的第一模态数据对该部分视频帧进行发言人检测处理,得到第一检测结果。
[0016]第二检测模块,用于基于该部分视频帧的第二模态数据对该部分视频帧进行发言人检测处理,得到第二检测结果。
[0017]确定模块,用于基于第一检测结果和第二检测结果,从该部分视频帧中确定出有人发言的目标帧。
[0018]切分模块,用于基于目标帧对直播视频进行切分,得到直播视频中有人发言的视频片段。
[0019]本公开实施例的第六方面提供了一种视频切分装置,该装置包括:
[0020]第一检测模块,用于对视频中的至少一部分视频帧的图像数据进行发言人检测处理,得到第一检测结果。
[0021]第二检测模块,用于对该部分视频帧的音频数据进行人声检测处理,得到第二检测结果。
[0022]确定模块,用于基于第一检测结果和所述第二检测结果,从该部分视频帧中确定出有人发言的目标帧。
[0023]切分模块,用于基于目标帧对视频进行切分,得到视频中有人发言的视频片段。
[0024]本公开实施例的第七方面提供了一种计算机设备,该设备包括:存储器和处理器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,实现上述第一方面至第三方面中任一方面的方法。
[0025]本公开实施例的第八方面提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,当计算机程序被处理器执行时,实现上述第一方面至第三方面中任一方面的方法。
[0026]本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0027]本公开实施例,基于视频中的至少一部分视频帧的第一模态数据对该部分视频帧进行目标事件的第一检测处理,得到第一检测结果;基于该部分视频帧的第二模态数据对该部分视频帧进行目标事件的第二检测处理,得到第二检测结果;基于第一检测结果和第二检测结果,从该部分视频帧中确定出发生目标事件的目标帧;基于目标帧对视频进行切分,得到发生目标事件的视频片段。由于本公开实施例能够基于视频的多模态数据从多个角度对视频进行分析,相较于单模态的视频切分方法能够得到更为准确的视频分析结果,从而根据准确的视频分析结果,能够得到准确的视频切分结果,提高了视频切分的准确度。
附图说明
[0028]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0029]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0030]图1是本公开实施例提供的一种视频切分方法的流程示意图;
[0031]图2是本公开实施例提供的一种视频帧的示意图;
[0032]图3是本公开实施例提供的一种人脸检测结果的示意图;
[0033]图4是本公开实施例提供的一种目标帧的判定方式示意图;
[0034]图5是本公开实施例提供的另一种目标帧的判定方式示意图;
[0035]图6是本公开实施例提供的一种视频的示意图;
[0036]图7是本公开实施例提供的另一种视频切分方法的流程图;
[0037]图8是本公开实施例提供的又一种视频切分方法的流程示意图;
[0038]图9是本公开实施例提供的又一种视频切分方法的流程示意图;
[0039]图10是本公开实施例提供的又一种视频切分方法的流程示意图;
[0040]图11是本公开实施例提供的一种视频切分装置的结构示意图。
具体实施方式
[0041]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0042]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频切分方法,其特征在于,包括:基于视频中的至少一部分视频帧的第一模态数据对所述至少一部分视频帧进行目标事件的第一检测处理,得到第一检测结果;基于所述至少一部分视频帧的第二模态数据对所述至少一部分视频帧进行所述目标事件的第二检测处理,得到第二检测结果;基于所述第一检测结果和所述第二检测结果,从所述至少一部分视频帧中确定出发生所述目标事件的目标帧;基于所述目标帧对所述视频进行切分,得到发生所述目标事件的视频片段。2.根据权利要求1所述的方法,其特征在于,所述目标事件包括发言事件;所述第一检测结果和所述第二检测结果用于指示视频帧中有人发言的概率。3.根据权利要求2所述的方法,其特征在于,所述第一模态数据为图像数据。4.根据权利要求3所述的方法,其特征在于,所述基于视频中的至少一部分视频帧的第一模态数据对所述至少一部分视频帧进行目标事件的第一检测处理,得到第一检测结果,包括:对所述至少一部分视频帧的图像进行人脸检测处理,得到包括人脸的第一视频帧和不包括人脸的第二视频帧;对所述第一视频帧进行发言人检测处理,得到所述第一视频帧中有人发言的概率;确定所述第二视频帧中有人发言的概率为0。5.根据权利要求4所述的方法,其特征在于,所述对所述第一视频帧进行发言人检测处理,包括:对所述第一视频帧进行人脸识别处理,得到所述第一视频帧上的人脸识别框;在所述人脸识别框中进行发言人检测处理。6.根据权利要求2所述的方法,其特征在于,所述第二模态数据为音频数据。7.根据权利要求6所述的方法,其特征在于,所述基于所述至少一部分视频帧的第二模态数据对所述至少一部分视频帧进行所述目标事件的第二检测处理,得到第二检测结果,包括:对所述至少一部分视频帧的音频数据进行人声检测处理,得到各视频帧有人发言的概率。8.根据权利要求2所述的方法,其特征在于,所述基于所述第一检测结果和所述第二检测结果,从所述至少一部分视频帧中确定出发生所述目标事件的目标帧,包括:针对所述至少一部分视频帧中的每个视频帧,将所述视频帧对应的第一检测结果和第二检测结果进行加权求和处理,得到对应的加权求和结果;将所述至少一部分视频帧中对应所述加权求和结果大于预设阈值的视频帧确定为目标帧。9.根据权利要求1-8中任一项所述的方法,其特征在于,所述基于所述目标帧对所述视频进行切分,得到发生所述目标事件的视频片段,包括:响应于两个目标帧之间的非目标帧的数量小于预设数量,将所述两个目标帧切分到同一个视频片段中;响应于两个目标帧之间的非目标帧的数量大于所述预设数量,将所述两个目标帧切分
到两个不同的视频片段中。10.根据权利要求1-8中任一项所述的方法,其特征在于,在得到所述视频片段后,所述方法还包括:将所述视频片段中的音频数据转换成文本数据,并对所述文本数据进行主题抽取处理;根据所述文本数据中的主题,对所述视频片段进行切分。11.根据权利要求1-8中任一项所述的方法,其特征在于,在得到所述视频片段后,所述方法还包括:对所述视频片段中的发言...

【专利技术属性】
技术研发人员:董琦聪
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1