【技术实现步骤摘要】
普通话和四川话的混合语音识别模型的训练方法及系统
本专利技术涉及语音识别领域,尤其涉及一种普通话和四川话的混合语音识别模型的训练方法及系统。
技术介绍
语音识别通常采用深度学习框架算法,根据不同策略,达到同时支持多种语言的语音识别效果。有基于语种分类+两套独立语音识别系统的方案,也有单独一套语音识别系统支持多语言的方案。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:基于语种分类+两套独立语音识别系统的方案,从端到端的性能上来讲,由于链路上每个模块的错误率都是累加的,多引入了一个语种分类模块便是多引入了一个错误来源,且语音识别模块取决于语种分类模块的结果,语种分类错误会导致语音识别结果错误。此外,模块更多,因此资源占用更大,从资源占用和部署的角度而言资源占用高。单独一套语音识别系统支持多种语言的方案,由于不同语言存在声学差异,一般采用不同建模单元,通常在模型结构上针对不同语种会有分岔,如果分岔的模型部分参数量较小而公共的神经网络参数较多,当数据量不均衡时,识别结果容易偏向数据量大的那 ...
【技术保护点】
1.一种普通话和四川话的混合语音识别模型的训练方法,其中,所述混合语音识别模型为具有N层公共中间层的深度神经网络结构,并且第N层公共中间层分叉出N层的第一任务层和N层的第二任务层,所述第一任务层计算基于音素的普通话和四川话的第一损失函数,所述第二任务层计算基于汉字的普通话和四川话的第二损失函数,所述训练方法包括:/n对带有文本标注的混合训练音频数据进行数据增强,确定数据增强后的混合训练音频数据的特征、基于音素的数据对齐和基于汉字的数据对齐,将所述特征、基于音素的数据对齐以及所述基于汉字的数据对齐确定为训练用的输入数据;/n将所述训练用的输入数据输入至所述N层公共中间层,通过 ...
【技术特征摘要】
1.一种普通话和四川话的混合语音识别模型的训练方法,其中,所述混合语音识别模型为具有N层公共中间层的深度神经网络结构,并且第N层公共中间层分叉出N层的第一任务层和N层的第二任务层,所述第一任务层计算基于音素的普通话和四川话的第一损失函数,所述第二任务层计算基于汉字的普通话和四川话的第二损失函数,所述训练方法包括:
对带有文本标注的混合训练音频数据进行数据增强,确定数据增强后的混合训练音频数据的特征、基于音素的数据对齐和基于汉字的数据对齐,将所述特征、基于音素的数据对齐以及所述基于汉字的数据对齐确定为训练用的输入数据;
将所述训练用的输入数据输入至所述N层公共中间层,通过所述第一任务层计算所述第一损失函数,通过所述第二任务层计算第二损失函数;
基于所述第一损失函数仅训练所述N层的第一任务层的第一神经网络参数,基于所述第二损失函数仅训练所述N层的第二任务层的第二神经网络参数,基于训练后的第一神经网络参数以及训练后的第二神经网络参数进行多任务训练,共同训练所述N层公共中间层的神经网络参数,完成所述混合语音识别模型的训练。
2.根据权利要求1所述的方法,其中,所述对带有文本标注的混合训练音频数据进行数据增强包括:
对所述混合训练音频数据进行加噪;和/或
通过人工嘴播放所述混合训练音频数据,使用参数不同的收音设备采集所述人工嘴播放的混合训练音频数据;和/或
对所述混合训练音频数据进行音频格式转换;和/或
对所述混合训练音频数据按照预设的参数进行信号处理;和/或
对所述混合训练音频数据高频随机抹零处理。
3.根据权利要求1所述的方法,其中,所述确定数据增强后的混合训练音频数据的特征、基于音素的数据对齐和基于汉字的数据对齐包括:
对数据增强后的带有文本标注的混合训练音频数据进行特征提取,确定所述混合训练音频数据内每一帧m维的FBANK特征;
通过高斯混合模型确定所述数据增强后的带有文本标注的混合训练音频数据内每一帧音素的数据对齐;
将连接时序分类作为损失函数对所述混合训练音频数据的文本标注进行处理,确定所述混合训练音频数据的基于汉字的数据对齐。
4.根据权利要求3所述的方法,其中,所述对数据增强后的带有文本标注的混合训练音频数据进行特征提取,确定所述混合训练音频数据内每一帧m维的FBANK特征包括:
使用帧长25ms、帧移10ms的窗对所述混合训练音频数据进行分帧,确定所述混合训练音频数据内每一帧m维的FBANK特征。
5.根据权利要求1所述的方法,其中,所述N层中间层的结构至少包括:深度神经网络、长短期记忆神经网络、前馈型序列记忆网络;
所述方法还包括:按照预设的条件,从所述第一任务层、第二...
【专利技术属性】
技术研发人员:陆一帆,钱彦旻,朱森,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。