混合语种语音识别方法、装置、系统及存储介质制造方法及图纸

技术编号：35737707 阅读：8 留言：0更新日期：2022-11-26 18:40

本申请公开了一种混合语种语音识别方法、装置、系统及存储介质，其中，该混合语种语音识别方法包括以下步骤：获取待识别语音信息；对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息；当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息。通过本申请的方法使得获得的文本信息的准确性更高，能够输出多语种语音混合的识别结果，提升用户的使用体验。使用体验。使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
混合语种语音识别方法、装置、系统及存储介质

[0001]本申请涉及人工智能
，具体而言涉及一种混合语种语音识别方法、装置、系统及存储介质。

技术介绍

[0002]随着深度学习技术，尤其是在语音识别领域的发展和突破，使得语音识别技术被广泛应用于娱乐、教育、智慧城市、医疗、军事等领域，并在各领域应用的实际效果得到了业界的认可。然而，在实际语音识别中，前端获取到的语音数据并不完全是单一语种，有时可能混杂有两个及两个以上语种，例如蒙古语和汉语的混合等，而目前的语音识别技术通常是单一语种建模，在多语种混合的复杂场景中，通过对输入语流进行前端预处理切分成子句，然后对子句进行语种置信度判断，然后经过最高置信度的语种对应语音识别模型输出识别结果，最后拼接子句的识别结果作为最终整句结果输出，然而在语种混合的复杂场景中该输出结果的准确性不高，设置无法识别出多语种混合的语音。
[0003]因此需要进行改进，以解决上述问题中的至少一个。

技术实现思路

[0004]针对上述问题，本申请提供了一种混合语种语音识别方法，所述方法包括以下步骤：
[0005]获取待识别语音信息；
[0006]对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息；
[0007]当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和/或第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息，其中...

【技术保护点】

【技术特征摘要】
1.一种混合语种语音识别方法，其特征在于，所述识别方法包括以下步骤：获取待识别语音信息；对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息；当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息，其中，所述转写模型的训练过程包括：在训练过程中，对提取的声学特征进行随机掩码处理，其中，所述随机掩膜处理包括：随机在所述声学特征对应的频谱图中遮挡预定数量的时域特征，和/或，随机在所述声学特征对应的频谱图中遮挡预定数量的频域特征。2.如权利要求1所述的识别方法，其特征在于，所述转写模型为基于编码器
‑
解码器框架的语音识别模型，其中，待训练的转写模型的编码器包括依次连接的特征提取模块、卷积网络模块、多个第一Tansformer网络结构、前馈神经网络层、反卷积网络模块、全连接层和归一化网络模块，待训练的转写模型的解码器包括依次连接的转换模块、卷积网络模块、多个第二Tansformer网络结构、前馈神经网络层和归一化网络模块，其中，所述方法预先通过以下步骤训练获得所述已训练的转写模型：获取训练数据，其中，所述训练数据包括语音信息和语音信息对应的文本标签；通过所述特征提取模块提取输入的训练数据集中的当前时段的语音信息的声学特征，并对提取的所述声学特征进行所述随机掩码处理；通过所述编码器的卷积网络模块、所述多个第一Tansformer网络结构和所述前馈神经网络层提取所述声学特征中的固定维度的语音编码特征；基于CTC损失函数对所述固定维度的语音编码特征进行损失计算，以获得第一损失；使用反卷积网络模块将所述固定维度的语音编码特征对应的时间维度升采样至与输入的当前时段的语音信息的时间维度一致，并利用全连接层和归一化网络模块对所述反卷积网络模块的输出进行处理后，以获得预测音素标签；利用交叉熵损失函数计算获得取所述预测音素标签的音素序列相对真实标签对应的音素序列的第二损失；在所述训练数据中获取当前时段之前的语音信息对应的文本标签；将当前时段之前的语音信息对应的文本标签输入到所述转换模块，以转换为字符嵌入向量；将所述字符嵌入向量输入到所述解码器的卷积网络模型提取抽象文本表征信息；将所述抽象文本表征信息输入到所述解码器的多个第二Tansformer网络结构中，以提取所述高维抽象的文本表征信息；将所述编码器的前馈神经网络层输出的所述固定维度的语音编码特征和所述高维抽象的文本表征信息通过注意力机制进行特征加权融合，以获得融合特征；将所述融合特征输入到所述前馈神经网络层和所述归一化网络模块进行处理，以获得预测文本序列；利用交叉商损失函数计算所述预测文本序列的字符级的第三损失；利用句子级别损失函数计算所述预测文本序列的第四损失；
将所述第一损失、所述第二损失、所述第三损失和所述第四损失进行加权求和得到总体损失；利用所述总体损失调整待训练的转写模型中的模型参数，以得到所述已训练的转写模型。3.如权利要求2所述的识别方法，其特征在于，所述获取训练数据，包括：获取所述训练数据集中的语音信息对应的真实文本标签；对所述真实文本标签进行随机文本特征扰动，以获得语音信息对应的文本标签，其中，所述随机文本特征扰动包括：将随机挑...

【专利技术属性】
技术研发人员：吴峥，高天，王培养，董德武，吴明辉，陈志文，孙毅成，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人