混合语种语音识别方法、装置、系统及存储介质制造方法及图纸

技术编号:35737707 阅读:8 留言:0更新日期:2022-11-26 18:40
本申请公开了一种混合语种语音识别方法、装置、系统及存储介质,其中,该混合语种语音识别方法包括以下步骤:获取待识别语音信息;对所述待识别语音信息进行语种识别,以确定所述待识别语音信息的语种信息;当所述语种信息包括目标语种时,将所述待识别语音信息输入到已训练的转写模型中,以将所述待识别语音信息转换为文本信息,所述目标语种包括第一语种和第二语种,所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息。通过本申请的方法使得获得的文本信息的准确性更高,能够输出多语种语音混合的识别结果,提升用户的使用体验。使用体验。使用体验。

【技术实现步骤摘要】
混合语种语音识别方法、装置、系统及存储介质


[0001]本申请涉及人工智能
,具体而言涉及一种混合语种语音识别方法、装置、系统及存储介质。

技术介绍

[0002]随着深度学习技术,尤其是在语音识别领域的发展和突破,使得语音识别技术被广泛应用于娱乐、教育、智慧城市、医疗、军事等领域,并在各领域应用的实际效果得到了业界的认可。然而,在实际语音识别中,前端获取到的语音数据并不完全是单一语种,有时可能混杂有两个及两个以上语种,例如蒙古语和汉语的混合等,而目前的语音识别技术通常是单一语种建模,在多语种混合的复杂场景中,通过对输入语流进行前端预处理切分成子句,然后对子句进行语种置信度判断,然后经过最高置信度的语种对应语音识别模型输出识别结果,最后拼接子句的识别结果作为最终整句结果输出,然而在语种混合的复杂场景中该输出结果的准确性不高,设置无法识别出多语种混合的语音。
[0003]因此需要进行改进,以解决上述问题中的至少一个。

技术实现思路

[0004]针对上述问题,本申请提供了一种混合语种语音识别方法,所述方法包括以下步骤:
[0005]获取待识别语音信息;
[0006]对所述待识别语音信息进行语种识别,以确定所述待识别语音信息的语种信息;
[0007]当所述语种信息包括目标语种时,将所述待识别语音信息输入到已训练的转写模型中,以将所述待识别语音信息转换为文本信息,所述目标语种包括第一语种和/或第二语种,所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息,其中
[0008]所述转写模型的训练过程包括:
[0009]在训练过程中,对提取的声学特征进行随机掩码处理,其中,所述随机掩膜处理包括:随机在所述声学特征对应的频谱图中遮挡预定数量的时域特征,和/或,随机在所述声学特征对应的频谱图中遮挡预定数量的频域特征。
[0010]在一个实施例中,所述转写模型为基于编码器

解码器框架的语音识别模型,其中,待训练的转写模型的编码器包括依次连接的特征提取模块、卷积网络模块、多个第一Tansformer网络结构、前馈神经网络层、反卷积网络模块、全连接层和归一化网络模块,待训练的转写模型的解码器包括依次连接的转换模块、卷积网络模块、多个第二Tansformer网络结构、前馈神经网络层和归一化网络模块,其中,所述方法预先通过以下步骤训练获得所述已训练的转写模型:
[0011]获取训练数据,其中,所述训练数据包括语音信息和语音信息对应的文本标签;
[0012]通过所述特征提取模块提取输入的训练数据集中的当前时段的语音信息的声学特征,并对提取的所述声学特征进行所述随机掩码处理;
[0013]通过所述编码器的卷积网络模块、所述多个第一Tansformer网络结构和所述前馈神经网络层提取所述声学特征中的固定维度的语音编码特征;
[0014]基于CTC损失函数对所述固定维度的语音编码特征进行损失计算,以获得第一损失;
[0015]使用反卷积网络模块将所述固定维度的语音编码特征对应的时间维度升采样至与输入的当前时段的语音信息的时间维度一致,并利用全连接层和归一化网络模块对所述反卷积网络模块的输出进行处理后,以获得预测音素标签;
[0016]利用交叉熵损失函数计算获得取所述预测音素标签的音素序列相对真实标签对应的音素序列的第二损失;
[0017]在所述训练数据中获取当前时段之前的语音信息对应的文本标签;
[0018]将当前时段之前的语音信息对应的文本标签输入到所述转换模块,以转换为字符嵌入向量;
[0019]将所述字符嵌入向量输入到所述解码器的卷积网络模型提取抽象文本表征信息;
[0020]将所述抽象文本表征信息输入到所述解码器的多个第二Tansformer网络结构中,以提取所述高维抽象的文本表征信息;
[0021]将所述编码器的前馈神经网络层输出的所述固定维度的语音编码特征和所述高维抽象的文本表征信息通过注意力机制进行特征加权融合,以获得融合特征;
[0022]将所述融合特征输入到所述前馈神经网络层和所述归一化网络模块进行处理,以获得预测文本序列;
[0023]利用交叉商损失函数计算所述预测文本序列的字符级的第三损失;
[0024]利用句子级别损失函数计算所述预测文本序列的第四损失;
[0025]将所述第一损失、所述第二损失、所述第三损失和所述第四损失进行加权求和得到总体损失;
[0026]利用所述总体损失调整待训练的转写模型中的模型参数,以得到所述已训练的转写模型。
[0027]在一个实施例中,所述获取训练数据,包括:
[0028]获取所述训练数据集中的语音信息对应的真实文本标签;
[0029]对所述真实文本标签进行随机文本特征扰动,以获得语音信息对应的文本标签,其中,所述随机文本特征扰动包括:将随机挑选的真实文本标签的随机位置以预定比例使用非真实标签的字符或音素替代。
[0030]在一个实施例中,所述第一语种为小语种,所述转写模型的训练数据包括所述第一语种的合成语音和对应的文本信息、目标语种的原始语音对应的文本信息、目标语种的拼接语音和对应的文本信息、目标语种的增广语音,其中,所述合成语音是对所述第一语种的历史文本对应的音素序列以及所述第一语种的历史语音的声纹信息进行合成获得的,所述拼接语音是将所述训练数据中的随机抽取的两条语音进行拼接获得的,所述增广语音是在所述原始语音中加入背景噪声后获得的。
[0031]在一个实施例中,所述对获取的待识别语音信息进行语种识别,以确定所述待识别语音信息的语种信息,包括:
[0032]通过已训练的语种识别模型对待识别语音信息进行语种识别,以预测待识别语音
信息中所述目标语种的得分,其中,所述目标语种的得分包括所述第一语种的第一得分和所述第二语种的第二得分;
[0033]将所述第一得分和所述第一阈值进行比较,以及将所述第二得分和所述第二阈值进行比较,当所述第一得分小于所述第一阈值和所述第二得分小于所述第二阈值时,则确定所述语种信息包括目标语种。
[0034]在一个实施例中,所述转写模型为基于编码器

解码器框架的语音识别模型,所述待识别语音信息包括多个时段的语音片段,所述将所述待识别语音信息输入到已训练的转写模型中,以将所述待识别语音信息转换为文本信息,包括:
[0035]对每一时段的所述语音片段进行编解码处理,以预测每一时段的所述语音片段对应的预测文本标签;
[0036]将所有时段的所述语音片段对应的所述预测文本标签按照时间顺序进行合并,以获得所述待识别语音信息对应的预测文本标签;
[0037]根据所述待识别语音信息对应的预测文本标签获取所述待识别语音信息对应的文本信息。
[0038]在一个实施例中,所述获取待识别语音信息包括:
[0039]获取原始语音信息;
[0040]通过语音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混合语种语音识别方法,其特征在于,所述识别方法包括以下步骤:获取待识别语音信息;对所述待识别语音信息进行语种识别,以确定所述待识别语音信息的语种信息;当所述语种信息包括目标语种时,将所述待识别语音信息输入到已训练的转写模型中,以将所述待识别语音信息转换为文本信息,所述目标语种包括第一语种和第二语种,所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息,其中,所述转写模型的训练过程包括:在训练过程中,对提取的声学特征进行随机掩码处理,其中,所述随机掩膜处理包括:随机在所述声学特征对应的频谱图中遮挡预定数量的时域特征,和/或,随机在所述声学特征对应的频谱图中遮挡预定数量的频域特征。2.如权利要求1所述的识别方法,其特征在于,所述转写模型为基于编码器

解码器框架的语音识别模型,其中,待训练的转写模型的编码器包括依次连接的特征提取模块、卷积网络模块、多个第一Tansformer网络结构、前馈神经网络层、反卷积网络模块、全连接层和归一化网络模块,待训练的转写模型的解码器包括依次连接的转换模块、卷积网络模块、多个第二Tansformer网络结构、前馈神经网络层和归一化网络模块,其中,所述方法预先通过以下步骤训练获得所述已训练的转写模型:获取训练数据,其中,所述训练数据包括语音信息和语音信息对应的文本标签;通过所述特征提取模块提取输入的训练数据集中的当前时段的语音信息的声学特征,并对提取的所述声学特征进行所述随机掩码处理;通过所述编码器的卷积网络模块、所述多个第一Tansformer网络结构和所述前馈神经网络层提取所述声学特征中的固定维度的语音编码特征;基于CTC损失函数对所述固定维度的语音编码特征进行损失计算,以获得第一损失;使用反卷积网络模块将所述固定维度的语音编码特征对应的时间维度升采样至与输入的当前时段的语音信息的时间维度一致,并利用全连接层和归一化网络模块对所述反卷积网络模块的输出进行处理后,以获得预测音素标签;利用交叉熵损失函数计算获得取所述预测音素标签的音素序列相对真实标签对应的音素序列的第二损失;在所述训练数据中获取当前时段之前的语音信息对应的文本标签;将当前时段之前的语音信息对应的文本标签输入到所述转换模块,以转换为字符嵌入向量;将所述字符嵌入向量输入到所述解码器的卷积网络模型提取抽象文本表征信息;将所述抽象文本表征信息输入到所述解码器的多个第二Tansformer网络结构中,以提取所述高维抽象的文本表征信息;将所述编码器的前馈神经网络层输出的所述固定维度的语音编码特征和所述高维抽象的文本表征信息通过注意力机制进行特征加权融合,以获得融合特征;将所述融合特征输入到所述前馈神经网络层和所述归一化网络模块进行处理,以获得预测文本序列;利用交叉商损失函数计算所述预测文本序列的字符级的第三损失;利用句子级别损失函数计算所述预测文本序列的第四损失;
将所述第一损失、所述第二损失、所述第三损失和所述第四损失进行加权求和得到总体损失;利用所述总体损失调整待训练的转写模型中的模型参数,以得到所述已训练的转写模型。3.如权利要求2所述的识别方法,其特征在于,所述获取训练数据,包括:获取所述训练数据集中的语音信息对应的真实文本标签;对所述真实文本标签进行随机文本特征扰动,以获得语音信息对应的文本标签,其中,所述随机文本特征扰动包括:将随机挑...

【专利技术属性】
技术研发人员:吴峥高天王培养董德武吴明辉陈志文孙毅成
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1