语音识别模型训练方法、装置、设备及介质制造方法及图纸

技术编号：31706242 阅读：11 留言：0更新日期：2022-01-01 11:08

本发明专利技术涉及人工智能领域，提供一种语音识别模型训练方法、装置、设备及介质，方法包括：获取包含语音样本的语音样本集；将语音样本输入初始识别模型；通过音频增强处理，得到待处理音频片段；通过初始识别模型中的老师网络进行老师声学特征提取，得到第一特征向量，同时通过初始识别模型中的学生网络进行学生声学特征提取，得到第二特征向量；结合老师网络中的动态队列进行对齐对比处理，得到损失值；在损失值未达到预设的收敛条件时，迭代更新直至收敛，并得到训练完成的语音识别模型。本发明专利技术实现了通过老师网络和学生网络共同的语音识别，加快训练效率。本发明专利技术适用于人工智能领域，可进一步推动智慧城市的建设。可进一步推动智慧城市的建设。可进一步推动智慧城市的建设。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别模型训练方法、装置、设备及介质

[0001]本专利技术涉及人工智能的语音识别领域，尤其涉及一种语音识别模型训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音翻译是将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程，不同于传统的机器翻译，语音翻译的输入直接是语音，输出是文本，随着国际性交流的增加，使用不同语种的语言沟通越来越频繁，为克服语言交流障碍，基于客户端进行在线语音翻译得到广泛的应用。
[0003]在线语音翻译一般涉及两个环节，第一是进行语音识别，即将用户输入的第一语种的语音信号转换为文本；第二是通过机器翻译装置对文本进行在线翻译，以得到作为翻译结果的第二语种的文本，最后向用户提供第二语种的文本或者语音信息，然而现有方案中的语音识别通常是采用大量的由人工低效率标注的语音样本训练得到的，而且训练得到的语音识别模型的结构复杂以及计算量大，导致输出的文本效率低，最终存在翻译滞后时长较长的情况，造成实时的在线语音翻译效果差，用户体验满意度低。

技术实现思路

[0004]本专利技术提供一种语音识别模型训练方法、装置、计算机设备及存储介质，实现了无需人工标注的自监督语音识别模型的训练，通过老师声学特征提取和学生声学特征提取，运用动态队列进行老师网络和学生网络之间的对齐对比处理，从而不断进行训练，提高了训练速度，最终简化了学生网络的结构且保证了识别精度，为后续的语音翻译提高了翻译效率和准确率。
[0005]一种语音识别模型训练方法，包括：
[0006]...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型训练方法，其特征在于，包括：获取语音样本集；所述语音样本集包括多个语音样本；将所述语音样本输入含有初始参数的初始识别模型；通过所述初始识别模型对所述语音样本进行音频增强处理，得到待处理音频片段；通过老师网络对所述待处理音频片段进行老师声学特征提取，得到第一特征向量，同时通过学生网络对所述待处理音频片段进行学生声学特征提取，得到第二特征向量；其中，所述初始识别模型包括所述老师网络和所述学生网络；所述学生网络为对所述老师网络进行蒸馏学习后获得；对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理，得到损失值；在所述损失值未达到预设的收敛条件时，迭代更新所述初始识别模型的初始参数，直至所述损失值达到所述收敛条件时，将收敛之后的所述初始识别模型记录为训练完成的语音识别模型。2.如权利要求1所述的语音识别模型训练方法，其特征在于，所述通过老师网络对所述待处理音频片段进行老师声学特征提取，得到第一特征向量之前，包括：获取预训练样本集；所述预训练样本集包括多个预训练样本；一个所述预训练样本对应一个文本标签；将所述预训练样本输入含有老师参数的初始网络；所述初始网络为基于Bert构建的模型；运用Moco训练方法，通过所述初始网络对所述预训练样本进行频域特征提取，根据提取的频域特征进行编码处理，得到待识别特征向量，并将所述待识别特征向量插入至所述初始网络中的动态队列；根据所述待识别特征向量和插入后的所述动态队列进行文字预测，得到与所述预训练样本对应的文本识别结果；根据与所述预训练样本对应的所述文本标签和所述文本识别结果，确定出对比损失值；在所述对比损失值未达到预训练收敛条件时，迭代更新所述初始网络的老师参数，直至所述对比损失值达到所述预训练收敛条件时，将收敛之后的所述初始网络记录为老师网络。3.如权利要求2所述的语音识别模型训练方法，其特征在于，所述将收敛之后的所述初始网络记录为老师网络之后，包括：运用蒸馏学习方法，对所述老师网络中的各层进行隔层蒸馏处理，得到蒸馏层；将所有所述蒸馏层进行结构拼接，以及从所述老师网络中迁移获得各所述蒸馏层中的学生参数；根据迁移后的所有所述蒸馏层构建出基于TinyBert的所述学生网络；其中，所述学生网络的层级小于所述老师网络的层级。4.如权利要求2所述的语音识别模型训练方法，其特征在于，所述根据所述待识别特征向量和插入后的所述动态队列进行文字预测，得到与所述预训练样本对应的文本识别结果，包括：
对所述待识别特征向量进行转换编码，得到第一编码序列，同时对所述待识别特征向量与插入后的所述动态队列进行点乘编码，得到多个第二编码序列；对所述第一编码序列、各所述第二编码序列进行掩蔽预测编码，得到多个掩蔽序列，并更新所述动态队列；对各所述掩蔽序列进行微调文字解码，以及对微调文字解码后的所有所述掩蔽序列进行对比预测，得到所述文本识别结果。5.如权利要求1所述的语音识别模型训练方法，其特征在于，所述对所述第一特征向量、所述第...

【专利技术属性】
技术研发人员：李泽远，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人