基于音频分析的视频实时剪辑方法、装置及设备制造方法及图纸

技术编号:38542291 阅读:11 留言:0更新日期:2023-08-19 17:10
本发明专利技术涉及图像处理技术领域,解决了现有技术中无法高效地、准确地基于音频分析进行智能化视频实时剪辑的问题,提供了一种基于音频分析的视频实时剪辑方法、装置、设备及存储介质。该方法包括:获取室内监控场景下的实时视频数据和对应的第一时间戳集合,并获取实时音频数据和对应的第二时间戳集合;对所述实时音频数据进行音频分析,提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合;获取各所述目标音频数据和第三时间戳集合,依据所述第一时间戳集合,对所述实时视频数据进行视频分析,输出剪辑后的视频。本发明专利技术基于音频分析结果,高效地、准确地完成了视频实时剪辑。准确地完成了视频实时剪辑。准确地完成了视频实时剪辑。

【技术实现步骤摘要】
基于音频分析的视频实时剪辑方法、装置及设备


[0001]本专利技术涉及图像处理
,尤其涉及一种基于音频分析的视频实时剪辑方法、装置及设备。

技术介绍

[0002]在实际家庭应用场景中,针对播放时长较长的视频,通常可以对该视频进行剪辑,缩短播放时长,生成播放时长相对较短但包含核心视频内容的精彩视频,然而,若采用人工剪辑生成精彩视频的方式,不仅会使得人力成本较高,而且人工剪辑视频的效率通常也较低,因此,可以采用人工智能剪辑的方式,自动生成剪辑视频。
[0003]现有中国专利CN114302174A提供一种视频剪辑方法、装置、计算设备及存储介质,所述方法包括:获取具有“笑声”和/或“掌声”内容的音频数据,并提取出该将“笑声”和/或“掌声”的声纹特征,然后,计算设备可以将声纹特征与原始视频中的音频数据对应的声纹特征进行逐段比对,并将声纹特征一致的音频数据位置,确定为关键位置,以此确定出原始视频中的多个关键位置,计算所述原始视频中相邻的第一帧图像与第二帧图像之间的相似度;当所述第一帧图像与所述第二帧图像之间的相似度小于预设阈值时,将所述第一帧图像或所述第二帧图像在所述原始视频中的位置确定为转场位置,根据该多个关键位置以及转场位置,从原始视频中切分得到多个视频片段,并基于该多个视频片段拼接得到目标视频。上述中国专利CN114302174A虽然解决了人工剪辑成本高、效率低的问题,但是在确定关键位置时,是对实时声纹特征与标注的声纹特征进行逐段对比,来确定关键位置,若逐段对比选取的每段音频数据时长过长,会导致部分声纹特征一致的音频数据丢失;若逐段对比选取的每段音频数据时长过短,会影响匹配效率,进而导致视频剪辑效率低。
[0004]为此,如何基于音频分析结果,高效地、准确地完成视频实时剪辑是亟待解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种基于音频分析的视频实时剪辑方法、装置及设备,用以解决现有技术中无法高效地、准确地基于音频分析进行智能化视频实时剪辑的问题。
[0006]本专利技术采用的技术方案是:
[0007]第一方面,本专利技术提供了一种基于音频分析的视频实时剪辑方法,其特征在于,所述方法包括:
[0008]S1:获取室内监控场景下的实时视频数据和对应的第一时间戳集合,并获取实时音频数据和对应的第二时间戳集合;
[0009]S2:对所述实时音频数据进行音频分析,提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合;
[0010]S3:获取各所述目标音频数据和第三时间戳集合,依据所述第一时间戳集合,对所述实时视频数据进行视频分析,输出剪辑后的视频。
[0011]优选地,所述S2包括:
[0012]S21:依据预设的时间间隔,提取出所述实时视频数据中的第一音频数据;
[0013]S22:获取所述第一音频数据,对所述第一音频数据进行声纹提取,得出实时声纹特征信息;
[0014]S23:获取所述实时声纹特征信息,将所述实时声纹特征信息与预设的标准声纹特征信息进行声纹匹配,输出匹配结果;
[0015]S24:依据所述匹配结果,输出各所述目标音频数据和所述第三时间戳集合。
[0016]优选地,所述S22包括:
[0017]S221:获取所述第一音频数据,提取所述第一音频数据的数据序列;
[0018]S222:获取所述数据序列,并对所述数据序列进行去均值化;
[0019]S223:将去均值化后的数据序列输入时延神经网络模型中,输出所述实时声纹特征信息。
[0020]优选地,所述S23包括:
[0021]S231:获取预设的标准声纹特征信息,对所述实时声纹特征信息与所述标准声纹特征信息进行互相关系数计算,得出实时声纹特征信息与所述标准声纹特征之间的相似度;
[0022]S232:获取预设的相似度阈值,若所述相似度大于所述相似度阈值,则所述匹配结果为成功;
[0023]S233:若所述相似度不大于所述相似度阈值,则所述匹配结果为失败。
[0024]优选地,所述S24包括:
[0025]S241:若所述匹配结果为成功,则将所述第一音频数据作为目标音频数据提取出来,并提取所述目标音频数据对应的第三时间戳集合;
[0026]S242:若所述匹配结果为失败,则提取出所述第一音频数据中的第二音频数据,将所述第二音频数据与下一时间间隔的第三音频数据进行组合,得出新的第一音频数据,其中,第二音频数据的时长与第三音频数据的时长之和等于第一音频数据的时长;
[0027]S243:对所述新的第一音频数据重复步骤S22至S24,直至提取出所述目标音频数据和所述第三时间戳集合。
[0028]优选地,所述S3包括:
[0029]S31:获取所述第三时间戳和所述第一时间戳,对所述第三时间戳和第一时间戳进行同步,得出与各所述目标音频数据对应的多个目标视频数据;
[0030]S32:将各目标音频数据上的预设标签赋予对应的各所述目标视频数据,得出实时视频标签;
[0031]S33:将所述实时视频标签与预设的目标视频标签进行匹配,输出匹配结果;
[0032]S34:获取预设的延时时限,依据所述匹配结果,当持续未匹配上的时间间隔大于所述延时时限时,将已与目标视频标签匹配上的所述实时视频标签对应的视频数据合成,输出剪辑后的视频。
[0033]优选地,所述S31包括:
[0034]S311:获取所述第三时间戳集合中初始时间戳和终止时间戳;
[0035]S312:获取所述第一时间戳集合,分别计算得出所述第一时间戳集合中与所述初
始时间戳对应的第一目标时间戳和与所述终止时间戳对应的第二目标时间戳;
[0036]S313:将发生在所述第一目标时间戳与所述第二目标时间戳之间的视频数据提取出来,输出所述目标视频数据。
[0037]第二方面,本专利技术提供了一种基于音频分析的视频实时剪辑装置,所述装置包括:
[0038]数据获取模块,用于获取室内监控场景下的实时视频数据和对应的第一时间戳集合,并获取实时音频数据和对应的第二时间戳集合;
[0039]音频分析模块,用于对所述实时音频数据进行音频分析,提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合;
[0040]视频分析模块,用于获取各所述目标音频数据和第三时间戳集合,依据所述第一时间戳集合,对所述实时视频数据进行视频分析,输出剪辑后的视频。
[0041]第三方面,本专利技术实施例还提供了一种电子设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
[0042]第四方面,本专利技术实施例还提供了一种存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频分析的视频实时剪辑方法,其特征在于,所述方法包括:S1:获取室内监控场景下的实时视频数据和对应的第一时间戳集合,并获取实时音频数据和对应的第二时间戳集合;S2:对所述实时音频数据进行音频分析,提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合;S3:获取各所述目标音频数据和第三时间戳集合,依据所述第一时间戳集合,对所述实时视频数据进行视频分析,输出剪辑后的视频。2.根据权利要求1所述的基于音频分析的视频实时剪辑方法,其特征在于,所述S2包括:S21:依据预设的时间间隔,提取出所述实时视频数据中的第一音频数据;S22:获取所述第一音频数据,对所述第一音频数据进行声纹提取,得出实时声纹特征信息;S23:获取所述实时声纹特征信息,将所述实时声纹特征信息与预设的标准声纹特征信息进行声纹匹配,输出匹配结果;S24:依据所述匹配结果,输出各所述目标音频数据和所述第三时间戳集合。3.根据权利要求2所述的基于音频分析的视频实时剪辑方法,其特征在于,所述S22包括:S221:获取所述第一音频数据,提取所述第一音频数据的数据序列;S222:获取所述数据序列,并对所述数据序列进行去均值化;S223:将去均值化后的数据序列输入时延神经网络模型中,输出所述实时声纹特征信息。4.根据权利要求2所述的基于音频分析的视频实时剪辑方法,其特征在于,所述S23包括:S231:获取预设的标准声纹特征信息,对所述实时声纹特征信息与所述标准声纹特征信息进行互相关系数计算,得出实时声纹特征信息与所述标准声纹特征之间的相似度;S232:获取预设的相似度阈值,若所述相似度大于所述相似度阈值,则所述匹配结果为成功;S233:若所述相似度不大于所述相似度阈值,则所述匹配结果为失败。5.根据权利要求2所述的基于音频分析的视频实时剪辑方法,其特征在于,所述S24包括:S241:若所述匹配结果为成功,则将所述第一音频数据作为目标音频数据提取出来,并提取所述目标音频数据对应的第三时间戳集合;S242:若所述匹配结果为失败,则提取出所述第一音频数据中的第二音频数据,将所述第二音频数据与下一时间间隔的第三音频数据进行组合,得出新的第一音频数据,其中,第二音频数据的时长与第三音频数据的时...

【专利技术属性】
技术研发人员:陈辉熊章张智张青军杜沛力
申请(专利权)人:武汉星巡智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1