语音掩蔽方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36742319 阅读：10 留言：0更新日期：2023-03-04 10:21

本申请实施例提供了一种语音掩蔽方法、装置、电子设备及存储介质，属于语音处理技术领域。该方法包括：将获取到的音频数据输入预训练的自动语音识别模型进行音频预测，得到与音频数据对应的文本特征；对文本特征进行音素对齐，生成文本特征的音素序列，其中，音素序列中的音素包括多个语音帧；根据音素序列确定多个目标音素，并对目标音素中的所有语音帧进行掩蔽，得到掩蔽序列；将音频数据和掩蔽序列输入掩蔽语言模型进行重建预测，输出预测音频。本申请实施例能够掩蔽特定的语音片段，提高语言模型提取声学信息的效率。模型提取声学信息的效率。模型提取声学信息的效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音掩蔽方法、装置、电子设备及存储介质

[0001]本申请涉及语音处理
，尤其涉及一种语音掩蔽方法、装置、电子设备及存储介质。

技术介绍

[0002]语音表示学习是一种提取高级语音信息的有效方法，通过语音表示学习方法提取的语音表示信息可用于改进下游语音和语言处理任务，如电话分类、说话人分类、自动语音识别等。语音表示学习通常使用大规模未标记语音数据进行预训练，然而，大多数模型在预训练过程中使用的是随机掩蔽的方法，即在时域上随机选择被掩蔽的帧，一旦选择一个帧作为起点，它就会屏蔽连续的固定数量的帧，导致随机被屏蔽的帧中包含语音片段以及非语音片段，在对掩蔽的片段进行信息提取的过程中，难以提取到有用的声学信息，从而降低提取声学信息的效率。

技术实现思路

[0003]本申请实施例的主要目的在于提出语音掩蔽方法、装置、电子设备及存储介质，能够掩蔽特定的语音片段，提高提取声学信息的效率。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种语音掩蔽方法，所述方法包括：
[0005]将获取到的音频数据输入预训练的自动语音识别模型进行音频预测，得到与所述音频数据对应的文本特征；
[0006]对所述文本特征进行音素对齐，生成所述文本特征的音素序列，其中，所述音素序列中的音素包括多个语音帧；
[0007]根据所述音素序列确定多个目标音素，并对所述目标音素中的所有语音帧进行掩蔽，得到掩蔽序列；
[0008]将所述音频数据和所述掩蔽序列输入掩蔽语言模型进行重建预测，输出预测音...

【技术保护点】

【技术特征摘要】
1.一种语音掩蔽方法，其特征在于，所述方法包括：将获取到的音频数据输入预训练的自动语音识别模型进行音频预测，得到与所述音频数据对应的文本特征；对所述文本特征进行音素对齐，生成所述文本特征的音素序列，其中，所述音素序列中的音素包括多个语音帧；根据所述音素序列确定多个目标音素，并对所述目标音素中的所有语音帧进行掩蔽，得到掩蔽序列；将所述音频数据和所述掩蔽序列输入掩蔽语言模型进行重建预测，输出预测音频。2.根据权利要求1所述的语音掩蔽方法，其特征在于，对所述自动语音识别模型的预训练过程如下：对获取到的语音信息进行标注，得到标记语音数据；根据所述标记语音数据对所述自动语音识别模型进行训练，得到预训练的所述自动语音识别模型。3.根据权利要求2所述的语音掩蔽方法，其特征在于，所述自动语音识别模型包括编码器和自回归模型；所述根据所述标记语音数据对所述自动语音识别模型进行训练，得到预训练的所述自动语音识别模型，包括：将所述标记语音数据输入所述编码器进行编码，得到所述标记语音数据的隐空间序列；将所述隐空间序列输入所述自回归模型进行整合，得到预训练的所述自动语音识别模型。4.根据权利要求1所述的语音掩蔽方法，其特征在于，所述对所述文本特征进行音素对齐，生成所述文本特征的音素序列，包括：对所述文本特征进行音素对齐，得到所述文本特征的边界信息；根据所述边界信息将所述语音帧映射至对应的音素，得到映射结果；根据所述映射结果生成所述文本特征的所述音素序列。5.根据权利要求1所述的语音掩蔽方法，其特征在于，所述掩蔽语言模型包括掩蔽编码器和多层自编码器；所述将所述音频数据和所述掩蔽序列输入掩蔽语言模型进行重建预测，输出预测音频，包括：将所述音频数据输入所述掩蔽编码器进行编码，得到编码序列；根据所述掩蔽序列对所述编码序列进行掩蔽；对掩蔽后的所述编码序...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人