音频降噪制造技术

技术编号:26691815 阅读:23 留言:0更新日期:2020-12-12 02:44
公开了用于降低音频噪声的方法、系统和装置,包括在计算机存储介质上被编码的计算机程序。在一个方面,一种方法包括接收用户语句的第一音频数据的动作。动作进一步包括确定由扬声器正在输出的第二音频数据的能量水平。动作进一步包括从(i)第一模型和(ii)第二模型中选择模型,使用第一音频数据样本来训练该第一模型,该第一音频数据样本各自对来自一个说话者的语音进行编码,使用第二音频数据样本来训练该第二模型,该第二音频数据样本各自对来自一个说话者或两个说话者的语音进行编码。动作进一步包括将第一音频数据作为输入提供给所选择的模型。动作进一步包括接收处理后的第一音频数据。动作进一步包括输出处理后的第一音频数据。

【技术实现步骤摘要】
音频降噪相关申请的交叉引用本申请要求2019年6月10日提交的美国申请62/859,327的权益,其通过引用并入本文。
本说明书一般涉及语音处理。
技术介绍
语音处理是对语音信号和信号处理方法的研究。信号通常以数字表示进行处理,因此语音处理可以被认为是应用于语音信号的数字信号处理的特殊情况。语音处理的方面包括语音信号的获取、操纵、存储、传输和输出。
技术实现思路
进行音频会议有时对于音频会议系统可能是具有挑战性的。音频会议系统可能必须执行多个音频信号处理技术,包括线性声学回声消除、残余回声抑制、降噪等。当说话者正在说话并且没有语音正在被音频会议系统的扬声器输出时,这些信号处理技术中的一些可以很好地执行,但是当音频会议系统的麦克风正在从附近的说话者拾取语音并且语音正在被扬声器输出时,这些信号处理技术可以很差地执行。为了处理既可以包括来自附近的说话者的语音又可以包括由扬声器正在输出的语音的音频数据,训练不同的音频处理模型可能是有帮助的。一个模型可以被配置为降低包括来自一个说话者的语音的音频数据中的噪声,并本文档来自技高网...

【技术保护点】
1.一种计算机实施的方法,其特征在于,包括:/n由具有相关联的麦克风和扬声器的计算设备接收用户语句的第一音频数据,所述第一音频数据是使用所述麦克风生成的;/n当接收所述用户语句的所述第一音频数据时,由所述计算设备确定由所述计算设备的所述扬声器正在输出的第二音频数据的能量水平;/n基于所述第二音频数据的所述能量水平,由所述计算设备从(i)第一模型和(ii)第二模型中选择模型,所述第一模型被配置为降低音频数据中的噪声,并且使用第一音频数据样本来训练所述第一模型,所述第一音频数据样本各自对来自一个说话者的语音进行编码,所述第二模型被配置为降低所述音频数据中的噪声,并且使用第二音频数据样本来训练所述第...

【技术特征摘要】
20190610 US 62/859,3271.一种计算机实施的方法,其特征在于,包括:
由具有相关联的麦克风和扬声器的计算设备接收用户语句的第一音频数据,所述第一音频数据是使用所述麦克风生成的;
当接收所述用户语句的所述第一音频数据时,由所述计算设备确定由所述计算设备的所述扬声器正在输出的第二音频数据的能量水平;
基于所述第二音频数据的所述能量水平,由所述计算设备从(i)第一模型和(ii)第二模型中选择模型,所述第一模型被配置为降低音频数据中的噪声,并且使用第一音频数据样本来训练所述第一模型,所述第一音频数据样本各自对来自一个说话者的语音进行编码,所述第二模型被配置为降低所述音频数据中的噪声,并且使用第二音频数据样本来训练所述第二模型,所述第二音频数据样本各自对来自一个说话者或两个说话者的语音进行编码;
由所述计算设备将所述第一音频数据作为输入提供给所选择的模型;
由所述计算设备从所述所选择的模型接收处理后的第一音频数据;以及
由所述计算设备提供所述处理后的第一音频数据用于输出。


2.根据权利要求1所述的方法,其特征在于,包括:
由所述计算设备接收由第一说话者说出的第一语句的音频数据和由第二说话者说出的第二语句的音频数据;
由所述计算设备通过将所述第一语句的所述音频数据和所述第二语句的所述音频数据进行组合来生成组合的音频数据;
由所述计算设备通过将所述组合的音频数据和噪声进行组合来生成噪声音频数据;以及
由所述计算设备使用所述组合的音频数据和所述噪声音频数据并且使用机器学习来训练所述第二模型。


3.根据权利要求2所述的方法,其特征在于,将所述第一语句的所述音频数据和所述第二语句的所述音频数据进行组合包括,在时域中重叠所述第一语句的所述音频数据和所述第二语句的所述音频数据,以及对所述第一语句的所述音频数据和所述第二语句的所述音频数据求和。


4.根据权利要求1所述的方法,其特征在于,包括:
在将所述第一音频数据作为输入提供给所述所选择的模型之前,由所述计算设备将所述第一音频数据作为输入提供给被配置为降低所述第一音频数据中的回声的回声消除器。


5.根据权利要求1所述的方法,其特征在于,包括:
由所述计算设备接收由说话者说出的语句的音频数据;
由所述计算设备通过将所述语句的所述音频数据和噪声进行组合来生成噪声音频数据;以及
由所述计算设备使用所述语句的所述音频数据和所述噪声音频数据并且使用机器学习来训练所述第一模型。


6.根据权利要求1所述的方法,其特征在于,使用第二音频数据样本来训练所述第二模型,所述第二音频数据样本各自对来自两个同时的说话者或一个说话者的语音进行编码。


7.根据权利要求1所述的方法,其特征在于,包括:
由所述计算设备将所述第二音频数据的所述能量水平与阈值能量水平进行比较;以及
基于将所述第二音频数据的所述能量水平与所述阈值能量水平进行比较,由所述计算设备确定所述音频数据的所述能量水平不满足所述阈值能量水平,
其中,选择所述模型包括,基于确定所述第二音频数据的所述能量水平不满足所述阈值能量水平来选择所述第二模型。


8.根据权利要求1所述的方法,其特征在于,包括:
由所述计算设备将所述第二音频数据的所述能量水平与阈值能量水平进行比较;以及
基于将所述第二音频数据的所述能量水平与所述阈值能量水平进行比较,由所述计算设备确定所述音频数据的所述能量水平满足所述阈值能量水平,
其中,选择所述模型包括,基于确定所述第二音频数据的所述能量水平满足所述阈值能量水平来选择所述第一模型。


9.根据权利要求1所述的方法,其特征在于,所述计算设备的所述麦克风被配置为检测由所述计算设备的所述扬声器输出的音频。


10.根据权利要求1所述的方法,其特征在于,所述计算设备在音频会议期间与另一计算设备进行通信。


11.根据权利要求1所述的方法,其特征在于,所述计算设备在视频会议期间与另一计算设备进行通信。


12.一种计算设备,其特征在于,包括:
一个或多个处理器;以及
存储指令的一个或多个存储设备,所述指令在由所述一个或多个处理器执行时可操作为使得所述计算设备进行操作,所述操作包括:
由所述计算设备接收用户语句的第一音频数据,所述第一音频数据是使用与所述计算设备相关联的麦克风生成的;
当接收...

【专利技术属性】
技术研发人员:托雷·鲁德伯格马库斯·怀尔布兰德塞缪尔·桑宁克里斯蒂安·舒德特
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1