【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及用于联合声学回声消除、语音增强和话音分离的通用自动语音辨识。
技术介绍
1、随着基于神经网络的端到端模型、大规模训练数据和用于加强训练数据的改进策略的出现,自动语音辨识(asr)系统的稳健性多年来已经显著改进。然而,诸如回声、更严酷的背景噪声和竞争语音的各种条件显著劣化asr系统的性能。可以训练联合asr模型来处置这些条件。然而在使用中,联合asr模型可能不会遇到同时发生的所有条件。因此,在所有条件都存在的情况下训练联合asr模型是不实际的。
技术实现思路
1、本公开的一个方面提供了一种用于训练用于联合回声消除、语音增强和话音分离的通用自动语音辨识模型的计算机实现的方法,该计算机实现的方法当在数据处理硬件上执行时使该数据处理硬件执行操作。操作包括接收与对应的训练场境信号配对的多个训练话语。训练场境信号包括:训练场境噪声信号,其包括对应训练话语之前的噪声;训练参考音频信号;以及训练说话者向量,其包括说出对应训练话语的目标说话者的话音特性。操作还包括使用场境信号暂退(dropout)
...【技术保护点】
1.一种计算机实现的方法(700),当在数据处理硬件(134)上执行时使所述数据处理硬件(134)执行操作,所述操作包括:
2.如权利要求1所述的计算机实现的方法(700),其中,所述信号暂退策略通过用全零替换所述对应的训练场境信号(534)来暂退每个训练场境信号(534)。
3.如权利要求2所述的计算机实现的方法(700),其中,用全零替换所述训练参考音频信号(543b)包括用与所述对应训练话语(532)相同的长度和特征维度的全零特征替换所述训练参考音频信号(543b)。
4.如权利要求2或3所述的计算机实现的方法(700),其中
...【技术特征摘要】
【国外来华专利技术】
1.一种计算机实现的方法(700),当在数据处理硬件(134)上执行时使所述数据处理硬件(134)执行操作,所述操作包括:
2.如权利要求1所述的计算机实现的方法(700),其中,所述信号暂退策略通过用全零替换所述对应的训练场境信号(534)来暂退每个训练场境信号(534)。
3.如权利要求2所述的计算机实现的方法(700),其中,用全零替换所述训练参考音频信号(543b)包括用与所述对应训练话语(532)相同的长度和特征维度的全零特征替换所述训练参考音频信号(543b)。
4.如权利要求2或3所述的计算机实现的方法(700),其中,替换所述训练场境噪声信号(534a)包括用具有预定长度和与所述对应训练话语(532)相同的特征维度的全零特征替换所述训练场境噪声信号(534a)。
5.如权利要求2至4中任一项所述的计算机实现的方法(700),其中,替换所述训练说话者向量(534c)包括用具有全零向量的全零特征替换所述训练说话者向量(534c)。
6.如权利要求1所述的计算机实现的方法(700),其中,所述信号暂退策略通过用经帧级学习的表示替换所述对应的训练场境信号(534)来暂退每个训练场境信号(534)。
7.如权利要求1至6中任一项所述的计算机实现的方法(700),其中,所述经训练的场境前端处理模型(200)包括:
8.如权利要求7所述的计算机实现的方法(700),其中,所述主编码器(210)还被配置为:
9.如权利要求7或8所述的计算机实现的方法(700),其中,所述主编码器(210)还被配置为:
10.如权利要求7至9中任一项所述的计算机实现的方法(700),其中,所述交叉注意力编码器(400)还被配置为:
11.如权利要求7至10中任一项所述的计算机实现的方法(700),其中:
12.如权利要求1至11中任一项所述的计算机实现的方法(700),其中,使用频谱损失和asr损失(640)将所述场境前端处理模型(200)与后端自动语音辨识asr模型(192)联合训练。
13.如权利要求12所述的计算机实现的方法(700),其中,所述频谱损失基于估计的比率掩蔽和理想比率掩蔽之间的l1损失函数和l2损失函数距离,所述理想比率掩蔽是使用混响语音和混响噪声计算的。
14.如权利要求12或13所述的计...
【专利技术属性】
技术研发人员:汤姆·奥马利,王泉,阿伦·纳拉亚南,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。