【技术实现步骤摘要】
样本音频数据的生成方法、装置、电子设备及存储介质
[0001]本公开涉及人工智能
,特别涉及一种样本音频数据的生成方法、装置、电子设备及存储介质。
技术介绍
[0002]近年来,神经网络广泛地应用在语音领域中,尤其是降噪、去混响等语音增强方向。基于神经网络所训练的高精度的语音增强模型,能够在海量样本音频数据的驱动下,充分地学习带噪语音数据到干净语音数据之间复杂的非线性映射关系,从而获得较佳的语音增强效果。然而,样本音频数据与实际场景的贴合度直接影响了语音增强模型的性能,因此,如何生成更加合理、有效的样本音频数据,成为模型训练过程中非常重要的一环。
[0003]相关技术中在生成样本音频数据时,主要采用如下方法:将纯净的语音信号与模拟房间冲激响应进行卷积操作,得到混合后的混响音频信号;如果模拟房间冲激响应的混响时间小于或等于设定的阈值,则将混合后的混响音频信号作为样本音频数据;如果模拟房间冲激响应的混响时间大于设定的阈值,则将混合后的混响音频信号的前n毫秒的前期反射信号与纯净的语音信号进行叠加,得到样本音频数据。< ...
【技术保护点】
【技术特征摘要】
1.一种样本音频数据的生成方法,其特征在于,所述方法包括:获取干净语音数据和多通道房间冲激响应,所述干净语音数据为噪声能量值小于预设能量值的语音数据,所述多通道房间冲激响应为增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项的仿真混响效果数据;基于所述干净语音数据和所述多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据;基于所述多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据;基于所述多通道全混响干净语音数据、前期混响干净语音数据及所述多通道噪声数据,生成样本音频数据。2.根据权利要求1所述的方法,其特征在于,所述获取干净语音数据,包括:获取语音数据库,所述语音数据库中存储有在实际语音场景下录制的语音数据;采用语音活动检测VAD,识别所述语音数据库中任一条语音数据的噪声部分;当所述语音数据的噪声部分的平均能量值小于所述预设能量值,将所述语音数据作为所述干净语音数据。3.根据权利要求1所述的方法,其特征在于,所述获取多通道房间冲激响应,包括:根据预设的混响效果,确定麦克风阵列中每个麦克风的理论位置坐标;为所述麦克风阵列中至少一个麦克风的理论位置坐标增加随机扰动;基于位置坐标调整后的麦克风阵列中的每个麦克风仿真音频信号的采集过程,得到多通道音频信号;对所述多通道音频信号中至少一个通道音频信号的幅值进行随机调整,得到所述多通道房间冲激响应。4.根据权利要求1所述的方法,其特征在于,所述基于所述干净语音数据和所述多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据,包括:将所述干净语音数据和所述多通道房间冲激响应进行卷积操作,得到所述多通道全混响干净语音数据;将所述干净语音数据中前预设时长的语音数据与所述多通道房间冲激响应进行卷积操作,得到所述前期混响干净语音数据。5.根据权利要求1所述的方法,其特征在于,所述基于所述多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据,包括:将所述多通道房间冲激...
【专利技术属性】
技术研发人员:李良斌,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。