音频检测方法及装置制造方法及图纸

技术编号:27207598 阅读:22 留言:0更新日期:2021-01-31 12:35
本说明书提供音频检测方法及装置,其中所述音频检测方法包括:获取待检测音频文件;将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段;通过所述音频检测方法进行喷麦音频片段的检测,不仅可以保证检测效率,还能够保证检测精准度,进一步满足了实际应用场景的音频处理需求。际应用场景的音频处理需求。际应用场景的音频处理需求。

【技术实现步骤摘要】
音频检测方法及装置


[0001]本说明书涉及音频处理
,特别涉及音频检测方法及装置。

技术介绍

[0002]随着互联网技术的发展,音频的噪声处理被应用到越来越多的场景中,如在直播场景、通话场景、语音播报场景等,都需要实时或离线的完成对音频中的噪声进行消除,从而使得用户能够收听到较为优质的音频。然而,现有技术在实现噪声消除时,大多数实现方案都是对音频中的主要声源和次要声源进行分辨,通过保留主要声源删除次要声源的方式实现消除不需要的噪声,然而因为喷麦是由主要声源在发声过程中产生的噪声,所以该种方式并不能够消除喷麦噪声产生的影响,导致优化后的音频还存在部分不利于收听的其他声音内容,故亟需一种有效的方案以解决该问题。

技术实现思路

[0003]有鉴于此,本说明书实施例提供了一种音频检测方法。本说明书同时涉及一种音频检测装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面,提供了一种音频检测方法,包括:
[0005]获取待检测音频文件;
[0006]将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
[0007]根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段。
[0008]可选的,所述喷麦检测模型通过如下方式训练:
[0009]获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;
[0010]将所述标准音频文件切分为多个音频区间,按照所述多个音频区间的属性信息对所述多个音频区间添加喷麦标签或正常语音标签;
[0011]基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始喷麦检测模型进行训练,获得所述喷麦检测模型。
[0012]可选的,所述将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率,包括:
[0013]基于预设帧长的处理窗以及预设时间的帧移对所述待检测音频文件进行变换,获得所述待检测音频文件对应的幅度谱;
[0014]按照所述幅度谱在所述待检测音频文件中提取低频特征输入至所述喷麦检测模型进行处理,获得所述喷麦音频区间和所述喷麦概率。
[0015]可选的,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段,包括:
[0016]确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;
[0017]将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较;
[0018]根据比较结果选择大于等于所述预设概率阈值的喷麦音频子区间组成所述待检测音频文件中的喷麦音频片段。
[0019]可选的,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段,包括:
[0020]确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;
[0021]将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较,根据比较结果确定多个目标喷麦音频子区间;
[0022]在所述待检测音频文件中提取所述多个目标喷麦音频子区间组成持续喷麦音频子区间;
[0023]基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段。
[0024]可选的,所述在所述待检测音频文件中提取所述多个目标喷麦音频子区间组成持续喷麦音频子区间,包括:
[0025]确定所述多个目标喷麦音频子区间在所述待检测音频文件中的音频位置,以及确定所述多个目标喷麦音频子区间对应的音频时长;
[0026]根据所述音频位置和所述音频时长,判断所述多个目标喷麦音频子区间在时间维度上是否连续;
[0027]若是,则将所述多个目标喷麦音频子区间进行整合,获得所述持续喷麦音频子区间。
[0028]可选的,所述基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段,包括:
[0029]对所述持续喷麦音频子区间进行分帧处理获得多个目标音频帧;
[0030]将所述多个目标音频帧分别进行喷麦检测,并将检测结果与喷麦检测阈值进行比较,根据比较结果组成喷麦音频序列;
[0031]在所述喷麦音频序列的持续时长大于时长阈值的情况下,根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段。
[0032]可选的,所述在所述喷麦音频序列的持续时长大于时长阈值的情况下,根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段,包括:
[0033]确定所述喷麦音频序列的持续时长;
[0034]根据预设条件确定所述时长阈值;
[0035]判断所述喷麦音频序列的持续时长是否大于等于所述时长阈值;
[0036]若是,执行所述根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段的步骤。
[0037]可选的,所述根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段,包括:
[0038]对所述喷麦音频序列进行分帧处理,获得按照时间顺序排序的多个音频帧;
[0039]选择按照时间顺序排序的多个音频帧中首次输出概率大于第一阈值的音频帧确定为初始喷麦音频帧,以及按照时间顺序排序的多个音频帧中所述初始喷麦音频帧后首次输出概率小于第二阈值的音频帧确定为末端喷麦音频帧;
[0040]确定所述初始喷麦音频帧和所述末端喷麦音频帧之间的中间喷麦音频帧,并基于所述初始喷麦音频帧、所述末端喷麦音频帧和所述中间喷麦音频帧组成所述喷麦音频片段。
[0041]可选的,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段步骤执行之后,还包括:
[0042]根据所述喷麦音频片段对所述待检测音频文件进行标准化处理,获得目标音频文件,并将所述目标音频文件进行播放;
[0043]其中,所述标准化处理包括删除所述喷麦音频片段或降低所述喷麦音频片段的能量。
[0044]可选的,所述待检测音频文件包括下述至少一项:
[0045]客户端上传的音频文件、待播放的音频文件、待处理的音频文件。
[0046]根据本说明书实施例的第二方面,提供了一种音频检测装置,包括:
[0047]获取模块,被配置为获取待检测音频文件;
[0048]处理模块,被配置为将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
[0049]确定模块,被配置为根据所述喷麦音频区间和所述喷麦概率确定所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频检测方法,其特征在于,包括:获取待检测音频文件;将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段。2.根据权利要求1所述的音频检测方法,其特征在于,所述喷麦检测模型通过如下方式训练:获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;将所述标准音频文件切分为多个音频区间,按照所述多个音频区间的属性信息对所述多个音频区间添加喷麦标签或正常语音标签;基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始喷麦检测模型进行训练,获得所述喷麦检测模型。3.根据权利要求1所述的音频检测方法,其特征在于,所述将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率,包括:基于预设帧长的处理窗以及预设时间的帧移对所述待检测音频文件进行变换,获得所述待检测音频文件对应的幅度谱;按照所述幅度谱在所述待检测音频文件中提取低频特征输入至所述喷麦检测模型进行处理,获得所述喷麦音频区间和所述喷麦概率。4.根据权利要求1所述的音频检测方法,其特征在于,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段,包括:确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较;根据比较结果选择大于等于所述预设概率阈值的喷麦音频子区间组成所述待检测音频文件中的喷麦音频片段。5.根据权利要求1所述的音频检测方法,其特征在于,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段,包括:确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较,根据比较结果确定多个目标喷麦音频子区间;在所述待检测音频文件中提取所述多个目标喷麦音频子区间组成持续喷麦音频子区间;基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段。6.根据权利要求5所述的音频检测方法,其特征在于,所述在所述待检测音频文件中提取所述多个目标喷麦音频子区间组成持续喷麦音频子区间,包括:确定所述多个目标喷麦音频子区间在所述待检测音频文件中的音频位置,以及确定所
述多个目标喷麦音频子区间对应的音频时长;根据所述音频位置和所述音频时长,判断所述多个目标喷麦音频子区间在时间维度上是否连续;若是,则将所述多个目标喷麦音频子区间进行整合,获得所述持续喷麦音频子区间。7.根据权利要求6所述的音频检测方法,其特征在于,所述基于所述持续喷麦音频子区间确定所述待检测音频文件...

【专利技术属性】
技术研发人员:陈佳路王晓红刘鲁鹏元海明高强夏龙郭常圳
申请(专利权)人:北京猿力未来科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1