基于音频分析的视频实时剪辑方法、装置及设备制造方法及图纸

技术编号：38542291 阅读：11 留言：0更新日期：2023-08-19 17:10

本发明专利技术涉及图像处理技术领域，解决了现有技术中无法高效地、准确地基于音频分析进行智能化视频实时剪辑的问题，提供了一种基于音频分析的视频实时剪辑方法、装置、设备及存储介质。该方法包括：获取室内监控场景下的实时视频数据和对应的第一时间戳集合，并获取实时音频数据和对应的第二时间戳集合；对所述实时音频数据进行音频分析，提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合；获取各所述目标音频数据和第三时间戳集合，依据所述第一时间戳集合，对所述实时视频数据进行视频分析，输出剪辑后的视频。本发明专利技术基于音频分析结果，高效地、准确地完成了视频实时剪辑。准确地完成了视频实时剪辑。准确地完成了视频实时剪辑。

全部详细技术资料下载

【技术实现步骤摘要】
基于音频分析的视频实时剪辑方法、装置及设备

[0001]本专利技术涉及图像处理
，尤其涉及一种基于音频分析的视频实时剪辑方法、装置及设备。

技术介绍

[0002]在实际家庭应用场景中，针对播放时长较长的视频，通常可以对该视频进行剪辑，缩短播放时长，生成播放时长相对较短但包含核心视频内容的精彩视频，然而，若采用人工剪辑生成精彩视频的方式，不仅会使得人力成本较高，而且人工剪辑视频的效率通常也较低，因此，可以采用人工智能剪辑的方式，自动生成剪辑视频。
[0003]现有中国专利CN114302174A提供一种视频剪辑方法、装置、计算设备及存储介质，所述方法包括：获取具有“笑声”和/或“掌声”内容的音频数据，并提取出该将“笑声”和/或“掌声”的声纹特征，然后，计算设备可以将声纹特征与原始视频中的音频数据对应的声纹特征进行逐段比对，并将声纹特征一致的音频数据位置，确定为关键位置，以此确定出原始视频中的多个关键位置，计算所述原始视频中相邻的第一帧图像与第二帧图像之间的相似度；当所述第一帧图像与所述第二帧图像之间的相似度小于预设阈值时，将所述第一帧图像或所述第二帧图像在所述原始视频中的位置确定为转场位置，根据该多个关键位置以及转场位置，从原始视频中切分得到多个视频片段，并基于该多个视频片段拼接得到目标视频。上述中国专利CN114302174A虽然解决了人工剪辑成本高、效率低的问题，但是在确定关键位置时，是对实时声纹特征与标注的声纹特征进行逐段对比，来确定关键位置，若逐段对比选取的每段音频数据时长过长，会导致部分声纹特征...

【技术保护点】

【技术特征摘要】
1.一种基于音频分析的视频实时剪辑方法，其特征在于，所述方法包括：S1：获取室内监控场景下的实时视频数据和对应的第一时间戳集合，并获取实时音频数据和对应的第二时间戳集合；S2：对所述实时音频数据进行音频分析，提取出具有预设标签的多个目标音频数据和所述第二时间戳集合中与各所述目标音频数据对应的第三时间戳集合；S3：获取各所述目标音频数据和第三时间戳集合，依据所述第一时间戳集合，对所述实时视频数据进行视频分析，输出剪辑后的视频。2.根据权利要求1所述的基于音频分析的视频实时剪辑方法，其特征在于，所述S2包括：S21：依据预设的时间间隔，提取出所述实时视频数据中的第一音频数据；S22：获取所述第一音频数据，对所述第一音频数据进行声纹提取，得出实时声纹特征信息；S23：获取所述实时声纹特征信息，将所述实时声纹特征信息与预设的标准声纹特征信息进行声纹匹配，输出匹配结果；S24：依据所述匹配结果，输出各所述目标音频数据和所述第三时间戳集合。3.根据权利要求2所述的基于音频分析的视频实时剪辑方法，其特征在于，所述S22包括：S221：获取所述第一音频数据，提取所述第一音频数据的数据序列；S222：获取所述数据序列，并对所述数据序列进行去均值化；S223:将去均值化后的数据序列输入时延神经网络模型中，输出所述实时声纹特征信息。4.根据权利要求2所述的基于音频分析的视频实时剪辑方法，其特征在于，所述S23包括：S231：获取预设的标准声纹特征信息，对所述实时声纹特征信息与所述标准声纹特征信息进行互相关系数计算，得出实时声纹特征信息与所述标准声纹特征之间的相似度；S232：获取预设的相似度阈值，若所述相似度大于所述相似度阈值，则所述匹配结果为成功；S233：若所述相似度不大于所述相似度阈值，则所述匹配结果为失败。5.根据权利要求2所述的基于音频分析的视频实时剪辑方法，其特征在于，所述S24包括：S241：若所述匹配结果为成功，则将所述第一音频数据作为目标音频数据提取出来，并提取所述目标音频数据对应的第三时间戳集合；S242：若所述匹配结果为失败，则提取出所述第一音频数据中的第二音频数据，将所述第二音频数据与下一时间间隔的第三音频数据进行组合，得出新的第一音频数据，其中，第二音频数据的时长与第三音频数据的时...

【专利技术属性】
技术研发人员：陈辉，熊章，张智，张青军，杜沛力，
申请(专利权)人：武汉星巡智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人