当前位置: 首页 > 专利查询>海南大学专利>正文

一种临高话和普通话混合语音识别模型训练方法及系统技术方案

技术编号:40069829 阅读:34 留言:0更新日期:2024-01-17 00:00
本发明专利技术涉及语音识别技术领域,公开了一种临高话和普通话混合语音识别模型训练方法,基于Conformer模型构建的端到端混合语音识别模型,所述方法包括:输入包含临高话和普通话的混合语音信号,并提取混合语音信号的声学特征序列;将特征序列输入到预设编码器,进行降采样以减少特征冗余信息,再经编码器编码生成隐藏向量;解码器对向量进行解码,在解码图中,依据转移弧上的权重逐帧进行搜索,计算每条路径中的权重得分;选择得分最高的路径作为最优路径,不断更新状态信息;输出最优路径对应的标签序列作为最终识别结果。本发明专利技术增强了模型提取局部细微特征的能力,提升了模型的语言建模能力,提高了模型识别的准确率。

【技术实现步骤摘要】

本专利技术涉及语音识别,特别涉及一种临高话和普通话混合语音识别模型训练方法及系统


技术介绍

1、汉语方言不仅代表着一种文字符号,更承载着深厚的中华文化。方言也具有浓郁的地域文化色彩和社会风土人情。当今,弱势方言正面临着全球化冲击,正处于逐渐消失的危险之中。因此,针对构成方言保护核心环节的方言语音识别研究具有重要的现实意义。

2、语音识别技术的核心目标是将声音转换为文字,使用户与机器进行语音交流时可以让机器能够明白你在说什么。大数据时代来临产生了海量的语音数据,极大地推动了语音识别技术的发展。传统语音识别技术以高斯混合模型和隐马尔可夫模型为代表,但由于高斯混合模型没有利用帧的上下文信息,不能学习深层非线性特征变换,求解算法容易陷入局部极值等,其实际识别效果并不理想。

3、随着技术的进步,传统的语音识别模型已经不能满足人们日益增长的需求,由于深度学习技术在处理大量数据时有着更明显的优势,因此科研人员将其应用到语音识别领域中来,使得语音识别技术有了突飞猛进的发展,语音识别的准确率达到了更高的水平。随着端到端语音识别技术的不断发展,大大减本文档来自技高网...

【技术保护点】

1.一种临高话和普通话混合语音识别模型训练方法,其特征在于,基于Conformer模型构建的端到端混合语音识别模型,所述端到端混合语音识别模型为编码器一解码器结构,所述编码器由预设编码器构成,预设编码器包含多个相同的Conformer模块;所述解码器采用由CTC解码器和N-gram语言模型所构成的CTC WFST search解码器,N-gram语言模型表示为加权有限状态转换器的形式;所述端到端混合语音识别模型的训练方法包括:

2.根据权利要求1所述的临高话和普通话混合语音识别模型训练方法,其特征在于,所述预设编码器包括语音增强模块、卷积降采样模块、线性层和Conformer...

【技术特征摘要】

1.一种临高话和普通话混合语音识别模型训练方法,其特征在于,基于conformer模型构建的端到端混合语音识别模型,所述端到端混合语音识别模型为编码器一解码器结构,所述编码器由预设编码器构成,预设编码器包含多个相同的conformer模块;所述解码器采用由ctc解码器和n-gram语言模型所构成的ctc wfst search解码器,n-gram语言模型表示为加权有限状态转换器的形式;所述端到端混合语音识别模型的训练方法包括:

2.根据权利要求1所述的临高话和普通话混合语音识别模型训练方法,其特征在于,所述预设编码器包括语音增强模块、卷积降采样模块、线性层和conformer模块;所述conformer模块包括前馈神经网络模块,多头注意力模块以及卷积模块,卷积模块和多头注意力模块被两个半步前馈神经网络模块夹在中间,在前馈神经网络模块、卷积模块和多头注意力模块上均使用了残差结构;

3.根据权利要求2所述的临高话和普通话混合语音识别模型训练方法,其特征在于,所述卷积模块由swish激活、glu激活层、pointwise卷积、depthwise卷积、batch norm和归一化层组成;glu激活函数决定哪些信息可以被传送到下个模块,其公式为:

4.根据权利要求3所述的临高话和普通话混合语音识别模型训练方法,其特征在于,所述前馈神经网络模块由两个内部线性层组成,并采用swish激活函数进行线性变换,同时采用dropout减少过拟合问题;

5.根据权利要求4所述的临高话和普通话混合语音识别模型训练方法,其特征在于,所述ctc wfst search解码器在解码时包含构建解码...

【专利技术属性】
技术研发人员:王忠曹春杰张良峰王艺臻刘剑三符龙生靳向峰杨博
申请(专利权)人:海南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1