一种音频处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28046436 阅读:16 留言:0更新日期:2021-04-09 23:32
本公开关于一种音频处理方法、装置、电子设备及存储介质,所述方法包括:对待处理视频的原音频数据进行人声检测,得到人声检测结果;获取所述待处理视频的配乐音频数据;根据所述人声检测结果对所述待处理视频的原音频数据和所述配乐音频数据进行叠加处理。也就是说,本公开中,根据人声检测结果对所述待处理视频的原音频数据和所述配乐音频数据进行叠加处理,保留了视频中原音频数据中的原人声,降低对应视频片段中的配乐音量,提升了视频中的音频处理效果,使处理后的视频更具丰富度和表现力。

【技术实现步骤摘要】
一种音频处理方法、装置、电子设备及存储介质
本公开涉及音频处理
,尤其涉及一种音频处理方法、装置、电子设备及存储介质。
技术介绍
在视频编辑时,通常对用户导入视频的进行转码,再抽取图像帧,然后分析抽取图像帧的清晰度、色彩丰富度、画面意义显著性等,在此基础上,以不同权重对视频画面的质量打分,依据一定的量化标准(如裁剪时长范围、是否需按音乐节拍卡点等),裁剪出最优质、精彩的视频内容,并根据其他维度(如视频内容的场景等),为视频选择合适音乐和图像装饰特效。相关技术中,在通过图像处理技术对视频或者混合的视频和图片进行智能化裁剪编辑时,注重视频画面的基础特征(比如清晰度、色彩丰富度以及画面意义等)、内容场景等基础信息,未将视频中的原音频作为智能化编辑的参考信息。目前,对视频进行智能化裁剪编辑时,会将视频中的原音频内容简单化处理,比如将视频中的原声的音量默认为零,然后,基于该视频的内容和场景,为该视频选择一首合适的配乐,从而生成合成视频。但是,相关技术中,由于视频中的音频作为该视频内容中的重要信息,在智能化裁剪编辑的过程中,会被完全抹掉,使该视频丢失了原有的音频(比如人声等),降低了视频的表现力。
技术实现思路
本公开提供一种音频处理方法、装置、电子设备及存储介质,以至少解决相关技术中由于在对视频进行智能裁剪编辑时,完全抹掉视频中的音频,导致视频的表现力差的技术问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种音频处理方法,包括:对待处理视频的原音频数据进行人声检测,得到人声检测结果;获取所述待处理视频的配乐音频数据;根据所述人声检测结果对所述待处理视频的原音频数据和所述配乐音频数据进行叠加处理。可选的,所述根据所述人声检测结果对所述待处理视频的原音频数据和所述配乐音频数据进行叠加处理,包括:根据所述人声检测结果分别对所述原音频数据和所述配乐音频数据进行增益处理;将所述增益处理后的所述原音频数据和所述配乐音频数据进行叠加。可选的,所述人声检测结果包括:人声出现的音频时间段;所述根据所述人声检测结果分别对所述原音频数据和所述配乐音频数据进行增益处理,包括:将所述人声出现的音频时间段对应的所述原音频数据乘以第一增益系数,并将该音频时间段对应的所述配乐音频数据乘以第二增益系数;将人声未出现的音频时间段对应的所述原音频数据乘以第三增益系数,并将该音频时间段对应的配乐音频数据乘以第四增益系数。可选的,所述第一增益系数为1,所述第二增益系数小于1;所述第三增益系数为0,所述第四增益系数为1。可选的,所述方法还包括:对所述人声出现的音频时间段和所述人声未出现的音频时间段的连接点,在所述连接点两侧预设时间段内,对所述连接点两侧的对应增益系数进行渐变处理。可选的,所述人声检测结果还包括:人声出现的概率,所述方法还包括:判断所述人声出现的概率是否达到预设阈值;如果所述人声出现的概率达到预设阈值,则将所述人声出现的概率达到预设阈值的音频时间段作为人声出现的音频时间段。可选的,所述人声检测结果还包括:噪声出现的概率和音乐出现的概率的至少一种,所述方法还包括:判断所述人声出现的概率是否大于所述噪声出现的概率和音乐出现的概率的至少一种;如果是,则执行所述判断所述人声出现的概率是否达到预设阈值的步骤。可选的,所述对待处理视频中的原音频数据进行人声检测,得到人声检测结果,包括:获取待处理视频的原音频数据;将所述待处理视频的原音频数据按照设定时间划分为多个音频数据段;通过声音检测模型对所述多个音频数据段中的每个音频数据段进行人声检测,得到人声检测结果。可选的,在对待处理视频中的原音频数据进行人声检测,得到人声检测结果后,所述方法还包括:基于所述人声出现的音频时间段和所述待处理视频的内容特征对所述待处理视频进行裁剪,得到裁剪后的视频段;根据所述人声检测结果对裁剪后得到的所述视频段中的原音频数据和所述配乐音频数据进行叠加处理。可选的,所述基于所述人声出现的音频时间段和所述待处理视频的内容特征对所述待处理视频进行裁剪,得到裁剪后的视频段,包括:通过视频深度分析模型对所述待处理视频的内容特征进行内容画面和内容场景分析,得到满足预设内容条件的视频图像帧;基于所述人声出现的音频时间段对应的视频图像帧,以及得到的满足预设内容条件的视频图像帧对所述待处理视频进行裁剪,得到裁剪后的视频段。根据本公开实施例的第二方面,提供一种音频处理装置,包括:检测模块,被配置为执行对待处理视频的原音频数据进行人声检测,得到人声检测结果;第一获取模块,被配置为执行获取所述待处理视频的配乐音频数据;叠加处理模块,被配置为执行根据所述人声检测结果对所述待处理视频的原音频数据和所述配乐音频数据进行叠加处理。可选的,所述叠加处理模块包括:增益处理模块,被配置为执行根据所述人声检测结果分别对所述原音频数据和所述配乐音频数据进行增益处理;叠加模块,被配置为执行将所述增益处理后的所述原音频数据和所述配乐音频数据进行叠加。可选的,所述检测模块检测得到的所述人声检测结果包括:人声出现的音频时间段;所述增益处理模块包括:第一计算模块,被配置为执行将所述人声出现的音频时间段对应的所述原音频数据乘以第一增益系数,并将该音频时间段对应的所述配乐音频数据乘以第二增益系数;第二计算模块,被配置为执行将人声未出现的音频时间段对应的所述原音频数据乘以第三增益系数,并将该音频时间段对应的配乐音频数据乘以第四增益系数。可选的,所述第一计算模块乘以的所述第一增益系数为1,所述第二增益系数小于1;所述第二计算模块乘以的所述所述第三增益系数为0,所述第四增益系数为1。可选的,所述装置还包括:渐变处理模块,被配置为执行对所述人声出现的音频时间段和所述人声未出现的音频时间段的连接点,在所述连接点两侧预设时间段内,对所述连接点两侧的对应增益系数进行渐变处理。可选的,所述检测模块检测得到的所述人声检测结果还包括:人声出现的概率,所述装置还包括:第一判断模块,被配置为执行判断所述人声出现的概率是否达到预设阈值;确定模块,被配置为执行在所述第一判断模块判定所述人声出现的概率达到预设阈值时,将所述人声出现的概率达到预设阈值的音频时间段作为人声出现的音频时间段。可选的,所述检测模块检测得到的所述人声检测结果还包括:噪声出现的概率和音乐出现的概率的至少一种,所述装置还包括:第二判断模块,被配置为执行判断所述人声出现的概率是否大于所述噪声出现的概率和音乐出现的概率的至少一种;所述第一判断模块,还被配置为执行在所述第二判断模块判定所述人声出现的概率大于所述噪声出现的概率和音乐出现的概率的至少一种时,判断所述人声出现的概率是否达到预设阈值。本文档来自技高网...

【技术保护点】
1.一种音频处理方法,其特征在于,包括:/n对待处理视频的原音频数据进行人声检测,得到人声检测结果;/n获取所述待处理视频的配乐音频数据;/n根据所述人声检测结果对所述待处理视频的原音频数据和所述配乐音频数据进行叠加处理。/n

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:
对待处理视频的原音频数据进行人声检测,得到人声检测结果;
获取所述待处理视频的配乐音频数据;
根据所述人声检测结果对所述待处理视频的原音频数据和所述配乐音频数据进行叠加处理。


2.根据权利要求1所述的音频处理方法,其特征在于,所述根据所述人声检测结果对所述待处理视频的原音频数据和所述配乐音频数据进行叠加处理,包括:
根据所述人声检测结果分别对所述原音频数据和所述配乐音频数据进行增益处理;
将所述增益处理后的所述原音频数据和所述配乐音频数据进行叠加。


3.根据权利要求2所述的音频处理方法,其特征在于,所述人声检测结果包括:人声出现的音频时间段;所述根据所述人声检测结果分别对所述原音频数据和所述配乐音频数据进行增益处理,包括:
将所述人声出现的音频时间段对应的所述原音频数据乘以第一增益系数,并将该音频时间段对应的所述配乐音频数据乘以第二增益系数;
将人声未出现的音频时间段对应的所述原音频数据乘以第三增益系数,并将该音频时间段对应的配乐音频数据乘以第四增益系数。


4.根据权利要求3所述的音频处理方法,其特征在于,所述第一增益系数为1,所述第二增益系数小于1;所述第三增益系数为0,所述第四增益系数为1。


5.根据权利要求3所述的音频处理方法,其特征在于,所述方法还包括:
对所述人声出现的音频时间段和所述人声未出现的音频时间段的连接点,在所述连接点两侧预设时间段内,对所述连...

【专利技术属性】
技术研发人员:李钊
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1