System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种端到端重口音语音识别跨模态并行训练方法技术_技高网

一种端到端重口音语音识别跨模态并行训练方法技术

技术编号:40652831 阅读:5 留言:0更新日期:2024-03-13 21:30
本发明专利技术公开了一种端到端重口音语音识别跨模态并行训练方法,包括以下步骤:针对实际应用场景准备重口音语音训练数据,从重口音语音训练数据中提取单模态声学特征;对提取的单模态声学特征降采样获得低维声学表征;使用重口音语音训练数据对应的真实文本数据通过字素转音素获得音素序列,再通过音素编码模块得到音素编码序列;使用跨模态注意力融合模块软对齐低维声学表征和音素编码序列,再使用残差连接,得到口音归一化的多模态特征;同时输入前两步得到的单模态声学特征和多模态特征到网络中进行并行训练。本发明专利技术的一种端到端重口音语音识别跨模态并行训练方法,提高重口音语音识别的性能,减少开发和维护成本,并提供更广泛的应用。

【技术实现步骤摘要】

本专利技术涉及人工智能及语音识别技术,尤其涉及一种端到端重口音语音识别跨模态并行训练方法


技术介绍

1、随着人工智能与深度神经网络的迅猛发展,语音识别技术正迎来广泛的应用和普及,从语音助手到客户服务,从医疗记录到智能家居,这一技术正在不断改善我们的日常生活和工作方式。语音识别技术是一种将口语语音转化为文本或指令的计算机应用技术。它使用各种算法和模型,以自动识别和理解说话者的语音内容。

2、端到端自动语音识别是目前语音识别技术主流方法,其原理基于深度神经网络学习模型,这些模型可以直接从原始音频数据提取的声学特征中学习和推断文字内容。与传统的声学模型、发音字典、语言模型的多模块处理不同,端到端自动语音识别将声学特征提取、声学模型和语言模型融合到一个统一的模型中。

3、虽然目前的端到端自动语音识别技术成功应用深度神经网络并取得了质的突破,但是当前语音识别系统仍然面临着不少应用挑战,值得我们去探索和研究。比如,由于不同口音之间的发音变化的多样性以及特定口音自动语音识别的监督训练数据的稀缺性,这些系统在处理不同口音语音时仍然可能失败。在研究端到端重口音语音识别过程中,主要存在以下几个问题:

4、1、由于语音样本的收集成本高昂,并且特定地区的口音和方言较少被关注,可用于训练重口音语音识别系统的语音训练数据可能非常有限。

5、2、这些系统通常是为特定地区或某几个地区的口音进行优化的,因此它们可能在特定口音下表现良好,在遇到其他未知口音时表现比较差。

6、3、通常情况下,这些系统在训练过程中需要语音的特定口音信息,但是在语音识别模型推理期间寻求精确的口音信息对工业应用来说是不友好的,这就造成了训练和应用的不匹配。


技术实现思路

1、有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是现有的语音识别方法不适用于重口音语音的识别,其识别精度差、工业应用差、训练和应用不匹配等问题。本专利技术提供了一种端到端重口音语音识别跨模态并行训练方法,将跨模态注意力融合模块放置在编码器前面,通过将语音声学特征与音素序列软对齐来产生多模态特征并归一化口音声学变化,和常规端到端语音识别训练只使用单一语音模态特征作为输入不同,并行训练同时使用语音模态和多模态特征作为编码器输入来并行训练模型。本专利技术的一种端到端重口音语音识别跨模态并行训练方法,提高重口音语音识别的性能,减少开发和维护成本,并提供更广泛的应用,包括语音助手、语音搜索等领域。

2、为实现上述目的,本专利技术提供了一种端到端重口音语音识别跨模态并行训练方法,包括以下步骤:

3、针对实际应用场景准备重口音语音训练数据,从重口音语音训练数据中提取单模态声学特征;

4、对提取的单模态声学特征降采样获得单模态低维声学表征;

5、使用重口音语音训练数据对应的真实文本数据通过字素转音素获得音素序列,再通过音素编码模块得到音素编码序列;

6、使用跨模态注意力融合模块软对齐单模态低维声学表征和音素编码序列,再使用残差连接,得到口音归一化的多模态特征;

7、同时输入前两步得到的单模态低维声学表征和多模态特征到语音识别的编码器和解码器中进行并行训练。

8、进一步地,针对实际应用场景准备重口音语音训练数据,从重口音语音训练数据中提取单模态声学特征,具体包括,先将多种重口音语音训练数据混合在一起并打乱顺序,随机选择一个批量mini-batch的数据提取fbank特征,fbank声学特征经过降采样作为语音识别编码器的单模态低维声学表征输入。

9、进一步地,首先,对重口音语音训练数据中的语音信号进行了一系列预处理步骤,包括预加重、分帧和加窗;接着,对每个窗口的信号执行了离散傅立叶变换,将时域信号转换为频域信号,并计算每个帧的功率谱,通过计算dft系数的幅度的平方来完成;然后,将这些频域特征通过一组梅尔滤波器进行加权,以模拟人耳的感知,以减小幅度差异;随后,对特征进行了对数变换,并应用了逆离散傅立叶变换,从而获得了fbank特征向量;最后,对得到的特征序列降采样得到模型的单模态低维声学表征输入。

10、进一步地,对提取的单模态声学特征降采样获得单模态低维声学表征,具体包括:首先,把单模态声学特征输入到卷积模块用以进一步提取声学特征和降采样,其中卷积模块由两层步长为2的卷积层堆叠,步长指的是做卷积操作时卷积核在输入特征数据上每次移动的距离,输出数据的形状大小与步长成反比;接着,对卷积模块的输出数据的形状做调整,把多个通道的特征串行合并到一个通道,并通过一层的全连接层以改变特征维数,获得降采样的单模态低维声学表征。

11、进一步地,使用重口音语音训练数据对应的真实文本数据通过字素转音素获得音素序列,再通过音素编码模块得到音素编码序列,具体包括,基于cmu字典的g2p_english工具包,首先,拿到输入的语音信号对应的真实文本,通过该工具包将真实文本转化为音素序列;接着,用音素序列通过音素编码层转换为音素编码序列;音素编码层包含可训练的参数,通过训练该层可以为每个音素学到合适的向量编码。

12、进一步地,音素序列中的每个音素用不同的数字表示。

13、进一步地,同时输入前两步得到的单模态低维声学表征和多模态特征到语音识别的编码器和解码器中进行并行训练之前,还包括搭建端到端重口音语音识别基线模型,端到端重口音语音识别基线模型包括编码器模块和解码器模块。

14、进一步地,编码器模块包括多个相同的神经网络块叠加,每个神经网络块包括首末的全连接层,多头自注意力模块和卷积模块,通过多头自注意力模块,编码器可以捕获到特征序列的全局依赖信息;通过卷积模块,使得编码器也擅长学习特征序列的局部依赖信息。

15、进一步地,解码器解模块基于transducer,包括一个预测网络和一个联合网络,预测网络是一层单向的lstm,用于语言建模,联合网络是一层跟着softmax函数的全连接网络,通过联合网络,来自编码器的深度表征和来自预测网络的输出表征共同做文本预测。

16、进一步地,并行训练包括两个分支:一个是标准的语音识别模型训练分支,使用语音声学特征,并使用损失函数;另一个分支将多模态特征作为输入传递给语音识别编码器。

17、技术效果

18、本专利技术的目标是提高重口音语音识别的性能,减少开发和维护成本,并提供更广泛的应用,包括语音助手、语音搜索等领域。本专利技术提出的端到端重口音语音识别跨模态并行训练方法采用了一种新颖的架构,该方法通过跨模态特征融合模块利用音素信息规范重口音语音,借助并行训练方法使得重口音语音识别系统在不同的口音数据上有很好的泛化性。能够显著提高重口音语音识别系统的准确性,在多重口音测试集上相较于基线系统,该方法表现出更高的识别准确度,降低了词错误率。值得一提的是,该方法只改进了模型的训练过程,当模型部署时不会增加额外的参数。该方法不仅能用于英文重口音语音识别也可用于中文重口音语音识别。<本文档来自技高网...

【技术保护点】

1.一种端到端重口音语音识别跨模态并行训练方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,针对实际应用场景准备重口音语音训练数据,从重口音语音训练数据中提取单模态声学特征,具体包括,先将多种重口音语音训练数据混合在一起并打乱顺序,随机选择一个批量mini-batch的数据提取Fbank特征,Fbank声学特征经过降采样作为语音识别编码器的单模态低维声学表征输入。

3.如权利要求2所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,首先,对重口音语音训练数据中的语音信号进行了一系列预处理步骤,包括预加重、分帧和加窗;接着,对每个窗口的信号执行了离散傅立叶变换,将时域信号转换为频域信号,并计算每个帧的功率谱,通过计算DFT系数的幅度的平方来完成;然后,将这些频域特征通过一组梅尔滤波器进行加权,以模拟人耳的感知,以减小幅度差异;随后,对特征进行了对数变换,并应用了逆离散傅立叶变换,从而获得了Fbank特征向量;最后,对得到的特征序列降采样得到模型的单模态低维声学表征输入。

4.如权利要求1所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,对提取的单模态声学特征降采样获得单模态低维声学表征,具体包括:首先,把单模态声学特征输入到卷积模块用以进一步提取声学特征和降采样,其中卷积模块由两层步长为2的卷积层堆叠,步长指的是做卷积操作时卷积核在输入特征数据上每次移动的距离,输出数据的形状大小与步长成反比;接着,对卷积模块的输出数据的形状做调整,把多个通道的特征串行合并到一个通道,并通过一层的全连接层以改变特征维数,获得降采样的单模态低维声学表征。

5.如权利要求1所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,使用重口音语音训练数据对应的真实文本数据通过字素转音素获得音素序列,再通过音素编码模块得到音素编码序列,具体包括,基于CMU字典的g2p_english工具包,首先,拿到输入的语音信号对应的真实文本,通过该工具包将真实文本转化为音素序列;接着,用音素序列通过音素编码层转换为音素编码序列;音素编码层包含可训练的参数,通过训练该层可以为每个音素学到合适的向量编码。

6.如权利要求1所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,所述音素序列中的每个音素用不同的数字表示。

7.如权利要求1所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,同时输入前两步得到的单模态低维声学表征和多模态特征到语音识别的编码器和解码器中进行并行训练之前,还包括搭建端到端重口音语音识别基线模型,所述端到端重口音语音识别基线模型包括编码器模块和解码器模块。

8.如权利要求7所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,所述编码器模块包括多个相同的神经网络块叠加,每个神经网络块包括首末的全连接层,多头自注意力模块和卷积模块,通过多头自注意力模块,编码器可以捕获到特征序列的全局依赖信息;通过卷积模块,使得编码器也擅长学习特征序列的局部依赖信息。

9.如权利要求7所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,所述解码器解模块基于Transducer,包括一个预测网络和一个联合网络,所述预测网络是一层单向的LSTM,用于语言建模,所述联合网络是一层跟着Softmax函数的全连接网络,通过联合网络,来自编码器的深度表征和来自预测网络的输出表征共同做文本预测。

10.如权利要求7所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,并行训练包括两个分支:一个是标准的语音识别模型训练分支,使用语音声学特征,并使用损失函数;另一个分支将多模态特征作为输入传递给语音识别编码器。

...

【技术特征摘要】

1.一种端到端重口音语音识别跨模态并行训练方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,针对实际应用场景准备重口音语音训练数据,从重口音语音训练数据中提取单模态声学特征,具体包括,先将多种重口音语音训练数据混合在一起并打乱顺序,随机选择一个批量mini-batch的数据提取fbank特征,fbank声学特征经过降采样作为语音识别编码器的单模态低维声学表征输入。

3.如权利要求2所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,首先,对重口音语音训练数据中的语音信号进行了一系列预处理步骤,包括预加重、分帧和加窗;接着,对每个窗口的信号执行了离散傅立叶变换,将时域信号转换为频域信号,并计算每个帧的功率谱,通过计算dft系数的幅度的平方来完成;然后,将这些频域特征通过一组梅尔滤波器进行加权,以模拟人耳的感知,以减小幅度差异;随后,对特征进行了对数变换,并应用了逆离散傅立叶变换,从而获得了fbank特征向量;最后,对得到的特征序列降采样得到模型的单模态低维声学表征输入。

4.如权利要求1所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,对提取的单模态声学特征降采样获得单模态低维声学表征,具体包括:首先,把单模态声学特征输入到卷积模块用以进一步提取声学特征和降采样,其中卷积模块由两层步长为2的卷积层堆叠,步长指的是做卷积操作时卷积核在输入特征数据上每次移动的距离,输出数据的形状大小与步长成反比;接着,对卷积模块的输出数据的形状做调整,把多个通道的特征串行合并到一个通道,并通过一层的全连接层以改变特征维数,获得降采样的单模态低维声学表征。

5.如权利要求1所述的一种端到端重口音语音识别跨模态并行训练方法,其特征在于,使用重口音语音训练数据对应的真实文本数据通过字素转音素获得...

【专利技术属性】
技术研发人员:龙艳花董仁昌李轶杰许东星
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1