语音掩蔽方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36742319 阅读:10 留言:0更新日期:2023-03-04 10:21
本申请实施例提供了一种语音掩蔽方法、装置、电子设备及存储介质,属于语音处理技术领域。该方法包括:将获取到的音频数据输入预训练的自动语音识别模型进行音频预测,得到与音频数据对应的文本特征;对文本特征进行音素对齐,生成文本特征的音素序列,其中,音素序列中的音素包括多个语音帧;根据音素序列确定多个目标音素,并对目标音素中的所有语音帧进行掩蔽,得到掩蔽序列;将音频数据和掩蔽序列输入掩蔽语言模型进行重建预测,输出预测音频。本申请实施例能够掩蔽特定的语音片段,提高语言模型提取声学信息的效率。模型提取声学信息的效率。模型提取声学信息的效率。

【技术实现步骤摘要】
语音掩蔽方法、装置、电子设备及存储介质


[0001]本申请涉及语音处理
,尤其涉及一种语音掩蔽方法、装置、电子设备及存储介质。

技术介绍

[0002]语音表示学习是一种提取高级语音信息的有效方法,通过语音表示学习方法提取的语音表示信息可用于改进下游语音和语言处理任务,如电话分类、说话人分类、自动语音识别等。语音表示学习通常使用大规模未标记语音数据进行预训练,然而,大多数模型在预训练过程中使用的是随机掩蔽的方法,即在时域上随机选择被掩蔽的帧,一旦选择一个帧作为起点,它就会屏蔽连续的固定数量的帧,导致随机被屏蔽的帧中包含语音片段以及非语音片段,在对掩蔽的片段进行信息提取的过程中,难以提取到有用的声学信息,从而降低提取声学信息的效率。

技术实现思路

[0003]本申请实施例的主要目的在于提出语音掩蔽方法、装置、电子设备及存储介质,能够掩蔽特定的语音片段,提高提取声学信息的效率。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种语音掩蔽方法,所述方法包括:
[0005]将获取到的音频数据输入预训练的自动语音识别模型进行音频预测,得到与所述音频数据对应的文本特征;
[0006]对所述文本特征进行音素对齐,生成所述文本特征的音素序列,其中,所述音素序列中的音素包括多个语音帧;
[0007]根据所述音素序列确定多个目标音素,并对所述目标音素中的所有语音帧进行掩蔽,得到掩蔽序列;
[0008]将所述音频数据和所述掩蔽序列输入掩蔽语言模型进行重建预测,输出预测音频。
[0009]在一些实施例,对所述自动语音识别模型的预训练过程如下:
[0010]对获取到的语音信息进行标注,得到标记语音数据;
[0011]根据所述标记语音数据对所述自动语音识别模型进行训练,得到预训练的所述自动语音识别模型。
[0012]在一些实施例,所述自动语音识别模型包括编码器和自回归模型;所述根据所述标记语音数据对所述自动语音识别模型进行训练,得到预训练的所述自动语音识别模型,包括:
[0013]将所述标记语音数据输入所述编码器进行编码,得到所述标记语音数据的隐空间序列;
[0014]将所述隐空间序列输入所述自回归模型进行整合,得到预训练的所述自动语音识
别模型。
[0015]在一些实施例,所述对所述文本特征进行音素对齐,生成所述文本特征的音素序列,包括:
[0016]对所述文本特征进行音素对齐,得到所述文本特征的边界信息;
[0017]根据所述边界信息将所述语音帧映射至对应的音素,得到映射结果;
[0018]根据所述映射结果生成所述文本特征的所述音素序列。
[0019]在一些实施例,所述掩蔽语言模型包括掩蔽编码器和多层自编码器;所述将所述音频数据和所述掩蔽序列输入掩蔽语言模型进行重建预测,输出预测音频,包括:
[0020]将所述音频数据输入所述掩蔽编码器进行编码,得到编码序列;
[0021]根据所述掩蔽序列对所述编码序列进行掩蔽;
[0022]对掩蔽后的所述编码序列添加预测头部,得到预测序列,其中,所述预测头部用于标识所述编码序列中被掩蔽的语音帧;
[0023]根据所述预测头部对所述预测序列进行序列重建,得到所述预测音频。
[0024]在一些实施例,还包括:
[0025]根据所述音频数据和所述预测音频对所述掩蔽语言模型进行训练,得到训练好的掩蔽语言模型。
[0026]在一些实施例,所述根据所述音频数据和所述预测音频对所述掩蔽语言模型进行训练,得到训练好的掩蔽语言模型,包括:
[0027]将所述音频数据与所述预测音频进行对比,得到预测结果;
[0028]当所述预测结果满足预设的训练结束条件,结束训练,得到训练好的掩蔽语言模型;
[0029]当所述预测结果未满足预设的训练结束条件,根据所述预测结果对所述掩蔽语言模型的参数进行更新,并继续对所述掩蔽语言模型进行训练直至所述预测结果满足预设的训练结束条件。
[0030]为实现上述目的,本申请实施例的第二方面提出了一种语音掩蔽装置,所述装置包括:
[0031]音频预测模块,用于将获取到的音频数据输入预训练的自动语音识别模型进行音频预测,得到与所述音频数据对应的文本特征;
[0032]音素对齐模块,用于对所述文本特征进行音素对齐,生成所述文本特征的音素序列,其中,所述音素序列中的音素包括多个语音帧;
[0033]音素掩蔽模块,用于根据所述音素序列确定多个目标音素,并对所述目标音素中的所有语音帧进行掩蔽,得到掩蔽序列;
[0034]重建预测模块,用于将所述音频数据和所述掩蔽序列输入掩蔽语言模型进行重建预测,输出预测音频。
[0035]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的语音掩蔽方法。
[0036]为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时
实现如第一方面所述的语音掩蔽方法。
[0037]本申请提出的语音掩蔽方法和装置、电子设备及存储介质,首先,将获取到的音频数据输入经过预训练的自动语音识别模型进行音频预测,得到与音频数据对应的文本特征,并将文本特征进行音素对齐,从而消除文本特征中语音帧的稀疏性,生成文本特征的音素序列,之后根据音素序列确定多个目标音素,对目标音素中的所有语音帧进行掩蔽,得到掩蔽序列,从而实现针对特定语音帧的掩蔽,最后,将原始的音频数据和掩蔽序列输入掩蔽语言模型进行重建预测,输出预测音频,实现对特定的语音片段的掩蔽,从而提高提取声学信息的效率。
附图说明
[0038]图1是本申请实施例提供的语音掩蔽方法的流程图;
[0039]图2是图1中的步骤S101的流程图;
[0040]图3是图2中的步骤S202的流程图;
[0041]图4是图1中的步骤S102的流程图;
[0042]图5是图1中的步骤S104的流程图;
[0043]图6是本申请另一实施例提供的语音掩蔽方法的流程图;
[0044]图7是图6中的步骤S601的流程图;
[0045]图8是本申请实施例提供的语音掩蔽装置的结构示意图;
[0046]图9是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
[0047]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0048]需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音掩蔽方法,其特征在于,所述方法包括:将获取到的音频数据输入预训练的自动语音识别模型进行音频预测,得到与所述音频数据对应的文本特征;对所述文本特征进行音素对齐,生成所述文本特征的音素序列,其中,所述音素序列中的音素包括多个语音帧;根据所述音素序列确定多个目标音素,并对所述目标音素中的所有语音帧进行掩蔽,得到掩蔽序列;将所述音频数据和所述掩蔽序列输入掩蔽语言模型进行重建预测,输出预测音频。2.根据权利要求1所述的语音掩蔽方法,其特征在于,对所述自动语音识别模型的预训练过程如下:对获取到的语音信息进行标注,得到标记语音数据;根据所述标记语音数据对所述自动语音识别模型进行训练,得到预训练的所述自动语音识别模型。3.根据权利要求2所述的语音掩蔽方法,其特征在于,所述自动语音识别模型包括编码器和自回归模型;所述根据所述标记语音数据对所述自动语音识别模型进行训练,得到预训练的所述自动语音识别模型,包括:将所述标记语音数据输入所述编码器进行编码,得到所述标记语音数据的隐空间序列;将所述隐空间序列输入所述自回归模型进行整合,得到预训练的所述自动语音识别模型。4.根据权利要求1所述的语音掩蔽方法,其特征在于,所述对所述文本特征进行音素对齐,生成所述文本特征的音素序列,包括:对所述文本特征进行音素对齐,得到所述文本特征的边界信息;根据所述边界信息将所述语音帧映射至对应的音素,得到映射结果;根据所述映射结果生成所述文本特征的所述音素序列。5.根据权利要求1所述的语音掩蔽方法,其特征在于,所述掩蔽语言模型包括掩蔽编码器和多层自编码器;所述将所述音频数据和所述掩蔽序列输入掩蔽语言模型进行重建预测,输出预测音频,包括:将所述音频数据输入所述掩蔽编码器进行编码,得到编码序列;根据所述掩蔽序列对所述编码序列进行掩蔽;对掩蔽后的所述编码序...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1