用于语音分离的自监督训练预测器的训练方法及系统技术方案

技术编号：36810257 阅读：15 留言：0更新日期：2023-03-09 00:40

本发明专利技术实施例提供一种用于语音分离的自监督训练预测器的训练方法及系统。该方法包括：利用预训练模型分别提取各单人声源语音的自监督训练特征；提取自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征，将各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签；将由各单人声源语音生成的训练混合语音输入至自监督训练预测器，得到各单人声源语音的估计特征；基于估计特征以及与各单人声源语音对应的训练标签确定的损失函数对自监督训练预测器进行训练。本发明专利技术实施例训练自监督训练预测器并应用于语音分离模型中，使自监督训练特征的精度提升，提高了语音分离系统的性能，模型参数和计算复杂度都有所降低。数和计算复杂度都有所降低。数和计算复杂度都有所降低。

全部详细技术资料下载

【技术实现步骤摘要】
用于语音分离的自监督训练预测器的训练方法及系统

[0001]本专利技术涉及智能语音领域，尤其涉及一种用于语音分离的自监督训练预测器的训练方法及系统。

技术介绍

[0002]对于单个说话人的语音识别，已经可以达到较高的识别精度，然而对于鸡尾酒会问题，例如，当多个说话人一起说话时，对应每个说话人的语音识别率就会降低。
[0003]为了提升多个说话人一起说话时语音识别的精度，现有技术通常会使用到无监督预训练模型。
[0004]大规模无监督预训练模型通过大量的无标注数据，使用基于遮掩
‑
预测的准则进行了自监督训练。训练过程中模型尝试对语音信号的上下文信息进行建模，从而学习到较强的深层嵌入特征。大规模预无监督训练模型在多种下游语音任务中取得了不错的效果。
[0005]在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：
[0006]大多数预训练模型都是使用主要由单说话人语音组成的数据集进行训练的，但语音分离输入通常是涉及多个说话者的语音混合。直接利用单人语音的预训练特征在语音分离任务中的效果不佳。
[0007]大多数预训练模型的训练数据集主要由单说话人语音组成，但语音分离输入通常是涉及多个说话人的语音混合。直接利用单人语音的预训练特征在语音分离任务中的效果不佳。将预训练模型应用于语音分离任务需要考虑和优化的另一个问题是模型的复杂性和计算成本。大多数预训练模型是针对一般下游任务设计的，使用大规模数据集进行训练。对于语音分离任务来说，其模型的规模可能过于庞大，...

【技术保护点】

【技术特征摘要】
1.一种用于语音分离的自监督训练预测器的训练方法，包括：利用预训练模型分别提取各单人声源语音的自监督训练特征；提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征，将所述各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签；将由所述各单人声源语音生成的训练混合语音输入至所述自监督训练预测器，得到各单人声源语音的估计特征；基于所述各单人声源语音的估计特征以及与所述各单人声源语音对应的训练标签确定的损失函数对所述自监督训练预测器进行训练，得到训练的自监督训练预测器。2.根据权利要求1所述的方法，其中，所述自监督训练预测器包括：用于提取时域语音信号的时域卷积神经网络以及用于上下文建模的双路循环神经网络。3.根据权利要求1所述的方法，其中，所述提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征包括：基于时域卷积神经网络模型提取所述自监督训练特征中用于语音表示的浅层特征；基于Transformer提取所述自监督训练特征中用于上下文信息的深层特征。4.根据权利要求1所述的方法，其中，所述预训练模型包括：Wav2vec无监督预训练模型。5.根据权利要求1所述的方法，其中，在得到训练的自监督训练预测器之后，所述方法还包括：将接收到的包含多个说话人的混合语音输入至语音分离模型，其中，所述语音分离包括：编码器、语音分离器、解码器；所述编码器对所述混合语音编码，得到混合语音深层特征，并利用所述自监督训练预测器确定所述混合语音中每个说话人的自监督训练估计特征，基于所述每个说话人的自监督训练估计特征以及所述混合语音深层特征确定融合特征；所述语音分离器确定出所述融合特征中每个说话人的特征编码；所述解码器对所述特征编码进行解码，...

【专利技术属性】
技术研发人员：钱彦旻，李晨达，曲博文，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人