【技术实现步骤摘要】
通过低延迟深度学习实现同时降噪和去混响
相关申请的交叉引用
[0001]本申请要求2020年10月16日提交的标题为“通过低延迟深度学习实现同时降噪和去混响”的美国专利申请号为17/072,605的专利申请的权益,其全部内容通过引用纳入本文。
[0002]本专利技术总体上涉及语音增强领域,更具体而言,本专利技术涉及实时应用中的同时去混响和降噪技术。
技术介绍
[0003]交互沟通很多时候是在不同的通信渠道中通过不同的媒体类型在线发生的。比如使用视频会议或视频流或简单的电话语音通话进行传输的实时通信。视频可包含音频和视频内容。一个用户(即发送方用户)可以将用户生成的内容(如视频)发送给一个或多个接收方用户。比如,可将一场音乐会直播给许多观众观看。又比如,老师可以向学生直播上课。再如,一些用户可进行包含实时视频的实时聊天。
[0004]这样的实时通信中的音频信号(如语音)可能会受到混响和背景噪声的破坏。当声音或信号被空间(如房间、大厅等)中的物体(如墙壁、家具等)吸收时,声音或信号的多次反射和最终衰减会产 ...
【技术保护点】
【技术特征摘要】
1.一种用于对音频样本进行降噪和去混响的方法:从音频样本的帧中提取关于听觉系统的耳蜗冲激响应的频谱特征;从神经网络处获得该帧中语音信号的估值,该神经网络在训练阶段接受过此类训练:接受频谱特征作为输入并输出语音信号的估值,其中语音信号的估值包括混响,但不包括该帧中存在的噪声;使用在训练阶段获得的映射参数将语音信号的估值映射到该帧的频域,从而获得该帧中混响语音频谱的估值;以及从时间分布式神经网络处获得该帧的去混响帧,其中该帧中的混响语音频谱的估值被用作该时间分布式神经网络的输入。2.根据权利要求1所述的方法,其中频谱特征由伽马通滤波器组提取。3.根据权利要求1所述的方法,其中从神经网络输出的语音信号的估值是对相敏掩模的估值。4.根据权利要求1所述的方法,其中对相敏掩模的估值包括预测的等效矩形带宽(ERB)子带增益。5.根据权利要求4所述的方法,其中频域包括从该帧中提取的短时傅立叶变换(STFT)特征。6.根据权利要求1所述的方法,其中从神经网络处获得该帧中语音信号的估值包括:将频谱特征与上下文窗口的相应特征连接从而获得输入矢量;以及将输入矢量作为神经网络的输入。7.根据权利要求1所述的方法,其中从时间分布式神经网络处获得该帧的去混响帧包括:对该帧中的混响语音频谱进行对数压缩从而获得对数压缩后的混响语音频谱;以及将对数压缩后的混响语音频谱作为时间分布式神经网络的输入。8.根据权利要求1所述的方法,其中使用在训练阶段获得的映射参数将语音信号的估值映射到该帧的频域,从而获得该帧中混响语音频谱的估值包括:通过下列公式估算出子带内的每个频率仓的增益g
ij
g
ij
=β
i
‑
1,j
G
i
‑1+β
i,j
G
i
+β
i+1,j
G
i+1
,其中g
ij
表示第i个ERB子带中的第j个频率仓的增益,其中G
i
‑1,G
i
和G
i+1
分别表示第(i
‑
1)个、第i个和第(i+1)个子带的增益,其中{β
i
‑
1,j
β
i,j
β
i+1,j
}为映射参数。9.一套用于对音频样本进行降噪和去混响的系统,包括:降噪模块;自适应映射模块;和去混响模块,将降噪模块配置为执行以下操作:从音频样本的帧中提取关于听觉系统的耳蜗冲激响应的频谱特征;并且从神经网络处获得该帧中语音信号的估值,该神经网络在训练阶段接受过此类训练:即接受频谱特征作为输入并输出语音信号的估值,其中语音信号的估值包括混响,但不包括该帧中存在的噪声;
...
【专利技术属性】
技术研发人员:赵晓涵,陈若非,刘子赫,姚斯强,
申请(专利权)人:达音网络科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。