【技术实现步骤摘要】
本专利技术涉及语音识别,特别涉及一种临高话和普通话混合语音识别模型训练方法及系统。
技术介绍
1、汉语方言不仅代表着一种文字符号,更承载着深厚的中华文化。方言也具有浓郁的地域文化色彩和社会风土人情。当今,弱势方言正面临着全球化冲击,正处于逐渐消失的危险之中。因此,针对构成方言保护核心环节的方言语音识别研究具有重要的现实意义。
2、语音识别技术的核心目标是将声音转换为文字,使用户与机器进行语音交流时可以让机器能够明白你在说什么。大数据时代来临产生了海量的语音数据,极大地推动了语音识别技术的发展。传统语音识别技术以高斯混合模型和隐马尔可夫模型为代表,但由于高斯混合模型没有利用帧的上下文信息,不能学习深层非线性特征变换,求解算法容易陷入局部极值等,其实际识别效果并不理想。
3、随着技术的进步,传统的语音识别模型已经不能满足人们日益增长的需求,由于深度学习技术在处理大量数据时有着更明显的优势,因此科研人员将其应用到语音识别领域中来,使得语音识别技术有了突飞猛进的发展,语音识别的准确率达到了更高的水平。随着端到端语音识别技
...【技术保护点】
1.一种临高话和普通话混合语音识别模型训练方法,其特征在于,基于Conformer模型构建的端到端混合语音识别模型,所述端到端混合语音识别模型为编码器一解码器结构,所述编码器由预设编码器构成,预设编码器包含多个相同的Conformer模块;所述解码器采用由CTC解码器和N-gram语言模型所构成的CTC WFST search解码器,N-gram语言模型表示为加权有限状态转换器的形式;所述端到端混合语音识别模型的训练方法包括:
2.根据权利要求1所述的临高话和普通话混合语音识别模型训练方法,其特征在于,所述预设编码器包括语音增强模块、卷积降采样模块、线性层
...【技术特征摘要】
1.一种临高话和普通话混合语音识别模型训练方法,其特征在于,基于conformer模型构建的端到端混合语音识别模型,所述端到端混合语音识别模型为编码器一解码器结构,所述编码器由预设编码器构成,预设编码器包含多个相同的conformer模块;所述解码器采用由ctc解码器和n-gram语言模型所构成的ctc wfst search解码器,n-gram语言模型表示为加权有限状态转换器的形式;所述端到端混合语音识别模型的训练方法包括:
2.根据权利要求1所述的临高话和普通话混合语音识别模型训练方法,其特征在于,所述预设编码器包括语音增强模块、卷积降采样模块、线性层和conformer模块;所述conformer模块包括前馈神经网络模块,多头注意力模块以及卷积模块,卷积模块和多头注意力模块被两个半步前馈神经网络模块夹在中间,在前馈神经网络模块、卷积模块和多头注意力模块上均使用了残差结构;
3.根据权利要求2所述的临高话和普通话混合语音识别模型训练方法,其特征在于,所述卷积模块由swish激活、glu激活层、pointwise卷积、depthwise卷积、batch norm和归一化层组成;glu激活函数决定哪些信息可以被传送到下个模块,其公式为:
4.根据权利要求3所述的临高话和普通话混合语音识别模型训练方法,其特征在于,所述前馈神经网络模块由两个内部线性层组成,并采用swish激活函数进行线性变换,同时采用dropout减少过拟合问题;
5.根据权利要求4所述的临高话和普通话混合语音识别模型训练方法,其特征在于,所述ctc wfst search解码器在解码时包含构建解码...
【专利技术属性】
技术研发人员:王忠,曹春杰,张良峰,王艺臻,刘剑三,符龙生,靳向峰,杨博,
申请(专利权)人:海南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。