System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及用于自动语音辨识的联合声学回声消除、语音增强和话音分离。
技术介绍
1、随着基于神经网络的端到端模型、大规模训练数据和用于增强训练数据的改进策略的出现,自动语音辨识(asr)系统的稳健性多年来已经显著改善。然而,诸如回声、更苛刻背景噪声和争挤(competing)语音之类的各种条件显著地劣化了asr系统的性能。虽然可以训练单独的asr模型来处理这些条件,但是维护多个特定于任务/条件的asr模型以及在使用期间即时在模型之间切换的难度是不切实际的。
技术实现思路
1、本公开的一个方面提供了一种用于使用联合声学回声消除、语音增强和话音分离的自动语音辨识的计算机实现的方法。计算机实现的方法在数据处理硬件上执行时使数据处理硬件执行操作,该操作包括在上下文前端(contextual frontend)处理模型处,接收对应于目标话语的输入语音特征。操作还包括在上下文前端处理模型处接收以下中的至少一个:参考音频信号、包括目标话语之前的噪声的上下文噪声信号、或包括说出目标话语的目标说话者的话音特性的说话者嵌入。操作还包括使用上下文前端处理模型,处理参考音频信号、上下文噪声信号或说话者嵌入向量中的至少一个以及输入语音特征,以生成增强语音特征。
2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,上下文前端处理模型包括将卷积和自注意力进行组合以建模短程(short-range)和长程(long-range)交互的confromer神经网络架构。在一些示例中,处
3、在这些示例中,处理输入特征以生成主输入编码可以包括使用特征方面的(feature-wise)线性调制(film)将输入语音特征与说话者嵌入向量进行组合以生成主输入编码。这里,处理主输入编码和上下文噪声编码以生成交叉注意力嵌入包括:使用film将主输入编码与说话者嵌入向量进行组合以生成调制主输入编码;以及处理调制主输入编码和上下文噪声编码以生成交叉注意力嵌入。附加地或可替选地,主编码器可以包括n个调制conformer块;噪声上下文编码器可以包括n个conformer块并且与主编码器并行地执行;以及交叉注意力可以包括m个调制交叉注意力conformer块。
4、在一些实施方式中,数据处理硬件执行上下文前端处理模型并且驻留在用户设备上。该用户设备被配置为经由用户设备的音频扬声器来输出参考音频信号作为回放音频;以及经由用户设备的一个或多个麦克风来捕获目标话语、参考音频信号和上下文噪声信号。在一些示例中,上下文前端处理模型是使用频谱损失和asr损失来与后端(backend)自动语音辨识(asr)模型联合地训练的。在这些示例中,频谱损失是基于估计比率掩码与理想比率掩码之间的l1损失函数和l2损失函数距离。这里,理想比率掩码是使用混响语音和混响噪声来计算的。
5、附加地,在这些示例中,asr损失可以由以下各项计算:使用被配置为接收由上下文前端处理模型针对训练话语预测的增强语音特征作为输入的asr模型的asr编码器,生成针对增强语音特征的asr编码器的预测输出;使用被配置为接收针对训练话语的目标语音特征作为输入的asr编码器,生成针对目标语音特征的asr编码器的目标输出;以及基于针对增强语音特征的asr编码器的预测输出和针对目标语音特征的asr编码器的目标输出来计算asr损失。在一些实施方式中,操作还包括使用后端语音系统来处理与目标话语相对应的增强语音特征。在这些实施方式中,后端语音系统可以包括自动语音辨识(asr)模型、热词检测模型、或音频或音频-视频呼叫应用中的至少一个。
6、本公开的另一方面提供了一种用于使用联合声学回声消除、语音增强和话音分离的自动语音辨识的上下文前端处理模型,其包括主编码器、噪声上下文编码器、交叉注意力编码器和解码器。主编码器接收与目标话语相对应的输入语音特征作为输入,并且生成主输入编码作为输出。噪声上下文编码器接收包括目标话语之前的噪声的上下文噪声信号作为输入,并且生成上下文噪声编码作为输出。交叉注意力编码器接收被生成为来自主编码器的输出的主输入编码和被生成为来自噪声上下文编码器的输出的上下文噪声编码作为输入,并且生成交叉注意力嵌入作为输出。解码器将交叉注意力嵌入解码为与目标话语相对应的增强输入语音特征。
7、该方面可以包括以下可选特征中的一个或多个。在一些示例中,主编码器还被配置为接收对应于参考音频信号的参考特征作为输入,并且通过处理与参考特征一起堆叠的输入语音特征来生成主输入编码作为输出。输入语音特征和参考特征可以各自包括对数梅尔滤波器组能量(lfbe)特征的相应序列。在一些实施方式中,主编码器还被配置为接收包括说出目标话语的目标说话者的话音特性的说话者嵌入作为输入,并且通过使用特征方面的线性调制(film)将输入语音特征与说话者嵌入进行组合以生成主输入编码作为输出。
8、在一些示例中,交叉注意力编码器还被配置为接收由说话者嵌入使用特征方面的线性调制(film)调制的主输入编码作为输入,说话者嵌入包括说出目标话语的目标说话者的话音特性,并且处理通过说话者嵌入调制的主输入编码以及上下文噪声编码以生成交叉注意力嵌入作为输出。在一些实施方式中,主编码器包括n个调制conformer块,上下文噪声编码器包括n个conformer块并且与主编码器并行地执行;以及交叉注意力编码器包括m个调制交叉注意力conformer块。在一些示例中,上下文前端处理模型在驻留在用户设备上的数据处理硬件上执行。这里,用户设备被配置为经由用户设备的音频扬声器输出参考音频信号作为回放音频,并且经由用户设备的一个或多个麦克风捕获目标话语、参考音频信号和上下文噪声信号。
9、在一些实施方式中,上下文前端处理模型是使用频谱损失和asr损失来与后端自动语音辨识(asr)模型联合地训练的。在这些实施方式中,频谱损失可以基于估计比率掩码与理想比率掩码之间的l1损失函数和l2损失函数距离。这里,理想比率掩码是使用混响语音和混响噪声来计算的。附加地,在这些实施方式中,asr损失是通过以下来计算的:接收由上下文前端处理模型针对训练话语预测的增强语音特征作为输入,asr编码器针对增强语音特征的预测输出,使用被配置为接收针对训练话语的目标语音特征作为输入的asr编码器,生成针对目标语音特征的asr编码器的目标输出;以及基于针对增强语音特征的as本文档来自技高网...
【技术保护点】
1.一种计算机实现的方法(600),所述计算机实现的方法(600)当在数据处理硬件(710)上执行时使所述数据处理硬件(710)执行操作,所述操作包括:
2.根据权利要求1所述的计算机实现的方法(600),其中,所述上下文前端处理模型(200)包括confromer神经网络架构,所述confromer神经网络架构将卷积和自注意力进行组合以建模短程和长程交互。
3.根据权利要求1或2所述的计算机实现的方法(600),其中,处理所述参考音频信号(154)、所述上下文噪声信号(213)或所述说话者嵌入向量(215)中的至少一个以及所述输入语音特征(212)包括:
4.根据权利要求3所述的计算机实现的方法(600),其中,处理所述输入语音特征(212)以生成所述主输入编码(218)进一步包括:处理与对应于所述参考音频信号(154)的参考特征(214)一起堆叠的所述输入语音特征(212)以生成所述主输入编码(218)。
5.根据权利要求3或4所述的计算机实现的方法(600),其中,所述输入语音特征(212)和所述参考特征(214)各自包括对数
6.根据权利要求3所述的计算机实现的方法(600),其中:
7.根据权利要求3至6中的任一项所述的计算机实现的方法(600),其中:
8.根据权利要求1至7中的任一项所述的计算机实现的方法(600),其中,所述数据处理硬件(710)执行所述上下文前端处理模型(200)并且驻留在用户设备(110)上,所述用户设备(110)被配置为:
9.根据权利要求1至8中的任一项所述的计算机实现的方法(600),其中,所述上下文前端处理模型(200)是使用频谱损失和ASR损失来与后端自动语音辨识(ASR)模型联合地训练的。
10.根据权利要求9所述的计算机实现的方法(600),其中,所述频谱损失是基于估计比率掩码与理想比率掩码之间的L1损失函数和L2损失函数距离,所述理想比率掩码是使用混响语音和混响噪声来计算的。
11.根据权利要求9或10所述的计算机实现的方法(600),其中,所述ASR损失是通过以下来计算的:
12.根据权利要求1至11中的任一项所述的计算机实现的方法(600),其中,所述操作进一步包括:使用后端语音系统(180)处理与所述目标话语(12)相对应的所述增强语音特征(250)。
13.根据权利要求12所述的计算机实现的方法(600),其中,所述后端语音系统(180)包括以下中的至少一个:
14.一种上下文前端处理模型(200),包括:
15.根据权利要求14所述的上下文前端处理模型(200),其中,所述主编码器(210)进一步被配置为:
16.根据权利要求14或15所述的上下文前端处理模型(200),其中,所述输入语音特征(212)和所述参考特征(214)各自包括对数梅尔滤波器组能量(LFBE)特征的相应序列。
17.根据权利要求14至16中的任一项所述的上下文前端处理模型(200),其中,所述主编码器(210)进一步被配置为:
18.根据权利要求14至17中的任一项所述的上下文前端处理模型(200),其中,所述交叉注意力编码器(400)进一步被配置为:
19.根据权利要求14至18中的任一项所述的上下文前端处理模型(200),其中:
20.根据权利要求14至19中的任一项所述的上下文前端处理模型(200),其中,所述上下文前端处理模型(200)在驻留在用户设备(110)上的数据处理硬件(710)上执行,所述用户设备(110)被配置为:
21.根据权利要求14至20中的任一项所述的上下文前端处理模型(200),其中,所述上下文前端处理模型(200)是使用频谱损失和ASR损失来与后端自动语音辨识(ASR)模型联合地训练的。
22.根据权利要求21所述的上下文前端处理模型(200),其中,所述频谱损失是基于估计比率掩码与理想比率掩码之间的L1损失函数和L2损失函数距离,所述理想比率掩码是使用混响语音和混响噪声来计算的。
23.根据权利要求21或22所述的上下文前端处理模型(200),其中,所述ASR损失是通过以下来计算的:
24.根据权利要求14至23中的任一项所述的上下文前端处理模型(200),其中,后端语音系统(180)被配置为处理与所述目标话语(12)相对应的所述增强语音特征(250)。
25.根据权利要求24所述的上下文前端处理模型(200),其中,所述后端语...
【技术特征摘要】
【国外来华专利技术】
1.一种计算机实现的方法(600),所述计算机实现的方法(600)当在数据处理硬件(710)上执行时使所述数据处理硬件(710)执行操作,所述操作包括:
2.根据权利要求1所述的计算机实现的方法(600),其中,所述上下文前端处理模型(200)包括confromer神经网络架构,所述confromer神经网络架构将卷积和自注意力进行组合以建模短程和长程交互。
3.根据权利要求1或2所述的计算机实现的方法(600),其中,处理所述参考音频信号(154)、所述上下文噪声信号(213)或所述说话者嵌入向量(215)中的至少一个以及所述输入语音特征(212)包括:
4.根据权利要求3所述的计算机实现的方法(600),其中,处理所述输入语音特征(212)以生成所述主输入编码(218)进一步包括:处理与对应于所述参考音频信号(154)的参考特征(214)一起堆叠的所述输入语音特征(212)以生成所述主输入编码(218)。
5.根据权利要求3或4所述的计算机实现的方法(600),其中,所述输入语音特征(212)和所述参考特征(214)各自包括对数梅尔滤波器组能量(lfbe)特征的相应序列。
6.根据权利要求3所述的计算机实现的方法(600),其中:
7.根据权利要求3至6中的任一项所述的计算机实现的方法(600),其中:
8.根据权利要求1至7中的任一项所述的计算机实现的方法(600),其中,所述数据处理硬件(710)执行所述上下文前端处理模型(200)并且驻留在用户设备(110)上,所述用户设备(110)被配置为:
9.根据权利要求1至8中的任一项所述的计算机实现的方法(600),其中,所述上下文前端处理模型(200)是使用频谱损失和asr损失来与后端自动语音辨识(asr)模型联合地训练的。
10.根据权利要求9所述的计算机实现的方法(600),其中,所述频谱损失是基于估计比率掩码与理想比率掩码之间的l1损失函数和l2损失函数距离,所述理想比率掩码是使用混响语音和混响噪声来计算的。
11.根据权利要求9或10所述的计算机实现的方法(600),其中,所述asr损失是通过以下来计算的:
12.根据权利要求1至11中的任一项所述的计算机实现的方法(600),其中,所述操...
【专利技术属性】
技术研发人员:阿伦·纳拉亚南,汤姆·奥马利,王泉,亚历克斯·帕克,詹姆斯·沃克,纳森·大卫·霍华徳,何彦璋,邱中镇,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。