【技术实现步骤摘要】
基于神经网络的端到端语音增强方法、装置
[0001]本公开涉及语音信号处理领域,具体而言,涉及一种基于神经网络的端到端语音增强方法、语音增强装置、计算机可读存储介质以及电子设备。
技术介绍
[0002]近几年,随着深度学习技术的高速发展,语音识别技术的识别效果也得到很大提升,该技术在无噪音场景下语音的识别准确率,已达到可以替代人工的语音识别标准。
[0003]目前,语音识别技术主要可以应用于智能客服、会议录音转写、智能硬件等场景。但是,当背景环境有噪音时,如在智能客服通话时用户周围环境杂音或会议记录音频中的背景杂音等,受此类杂音影响,语音识别技术可能无法准确地识别说话人的语义,进而影响语音识别的整体准确率。
[0004]因此,如何提高有噪音情况下的语音识别准确率成为语音识别技术下一个需要攻克的难关。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0006]本公开的目的在于提供一种基于神经网络的端到端语音增强方法、语音增强装置、计算机可读存储介质以及电子设备,以解决现有技术中有噪音情况下的语音识别准确率较低的问题。
[0007]根据本公开的第一方面,提供一种基于神经网络的端到端语音增强方法,包括:
[0008]利用时域卷积核对原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征;
[0009]对所述原始语音信号和所述原始语音信号的时 ...
【技术保护点】
【技术特征摘要】
1.一种基于神经网络的端到端语音增强方法,其特征在于,包括:利用时域卷积核对原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征;对所述原始语音信号和所述原始语音信号的时域平滑特征进行组合特征提取,得到增强语音信号。2.根据权利要求1所述的端到端语音增强方法,其特征在于,所述利用时域卷积核对原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征,包括:根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵;对所述时域平滑参数矩阵作乘积运算得到所述时域卷积核的权重矩阵;将所述时域卷积核的权重矩阵和所述原始语音信号作卷积运算,得到所述原始语音信号的时域平滑特征。3.根据权利要求2所述的端到端语音增强方法,其特征在于,所述根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵,包括:初始化多个时域平滑因子;基于预设的卷积滑窗和所述多个时域平滑因子得到时域平滑参数矩阵。4.根据权利要求1所述的端到端语音增强方法,其特征在于,所述对所述原始语音信号和所述原始语音信号的时域平滑特征进行组合特征提取,得到增强语音信号,包括:合并所述原始语音信号和所述原始语音信号的时域平滑特征,得到待增强语音信号;以所述待增强语音信号为深度神经网络的输入,利用反向传播算法对所述时域卷积核的权重矩阵进行训练;根据训练得到的权重矩阵对所述待增强语音信号进行组合特征提取,得到增强语音信号。5.根据权利要求4所述的端到端语音增强方法,其特征在于,所述以所述待增强语音信号为深度神经网络的输入,利用反向传播算法对所述时域卷积核的权重矩阵进行训练,包括:将所述待增强语音信号输入深度神经网络中,并构建时域损失函数;根据所述时域损失函数,利用误差反向传播算法对所述时域卷积核的权重矩阵进行训练。6.根据权利要求4所述的端到端语音增强方法,其特征在于,所述根据训练得到的权重矩阵对所述待增强语音信号进行组合特征提取,得到增强语音信号,包括:将训练得到的权重矩阵与所述待增强语音信号中的原始语音信号作卷积运算,得到第一时域特征图;将训练得到的权重矩阵与所述待增强语音信号中的平滑特征作卷积运算,得到第二时域特征图;组合所述第一时域特征图和所述第二时域特征图,得到所述增强语音信号。7.一种基于神经网络的端到端语音增强装置,其特征在于,包括:时域平滑特征提取模块,用于利用时域卷积核对处理后的原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征;组合特征提取模块,对所述原始语音信号和所述原始语音信号的...
【专利技术属性】
技术研发人员:陈泽华,吴俊仪,蔡玉玉,雪巍,杨帆,丁国宏,何晓冬,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。