语音识别模型训练方法、系统、移动终端及存储介质技术方案

技术编号:24332702 阅读:51 留言:0更新日期:2020-05-29 20:29
本发明专利技术提供了一种语音识别模型训练方法、系统、移动终端及存储介质,该方法包括:获取样本语音、样本文本及文本语料,根据样本文本和文本语料构建文本字典;对样本语音进行特征提取,得到语谱图特征,对语谱图特征进行长度排序,根据排序结果对语谱图特征进行长度补齐;将语谱图特征输入语音识别模型进行向量计算,以得到概率向量,根据概率向量和文本字典进行损失计算,以得到模型总损失;将模型总损失在语音识别模型中进行传播,直至语音识别模型收敛,根据文本语料进行语言模型的训练,将训练后的语言模型集成至语音识别模型。本发明专利技术无需进行发音词典的构建,降低了人力成本和模型训练的时间,提高了语音识别模型的训练效率。

Speech recognition model training method, system, mobile terminal and storage medium

【技术实现步骤摘要】
语音识别模型训练方法、系统、移动终端及存储介质
本专利技术属于语音识别
,尤其涉及一种语音识别模型训练方法、系统、移动终端及存储介质。
技术介绍
语音识别研究已有几十年的历史,语音识别技术主要包括声学模型建模、语言模型建模、发音词典构建以及解码四个部分,每一部分都可以成为一个单独的研究方向,并且相对于图像和文本,语音数据的采集和标注难度也大大提升,因此搭建一个完整的语音识别模型训练系统是个耗时极长、难度极高的工作,这极大阻碍了语音识别技术的发展。随着人工智能技术尤其是深度学习的研究和发展,一些基于端到端的语音识别算法被提出来,相较于传统语音识别模型训练方法,端到端语音识别模型训练方法简化了语音识别的流程,将大量工作交给了深度神经网络去学习和推理,因此在近些年得到了广泛关注。现有的语音识别模型训练过程中,首先用隐马尔科夫模型对声学建模单元进行建模,例如音素、音节等,然后用高斯混合模型对每一帧语音和隐马尔科夫模型的状态之间的对应关系进行建模,得到音素序列,通过发音词典将音素序列组合成词,最后通过语言模型将词组合成句子,但现有的语音识别模型训练过程效率低下且耗时较长。
技术实现思路
本专利技术实施例的目的在于提供一种语音识别模型训练方法、系统、移动终端及存储介质,旨在解决现有的语音识别模型训练方法训练效率低下且耗时长的问题。本专利技术实施例是这样实现的,一种语音识别模型训练方法,所述方法包括:获取样本语音、与所述样本语音对应的样本文本及文本语料,并根据所述样本文本和所述文本语料构建文本字典;对所述样本语音进行特征提取,得到语谱图特征,并对所述语谱图特征进行长度排序,根据排序结果对所述语谱图特征进行长度补齐;将所述语谱图特征输入语音识别模型进行向量计算,以得到概率向量,并根据所述概率向量和所述文本字典进行损失计算,以得到模型总损失;将所述模型总损失在所述语音识别模型中进行传播,直至所述语音识别模型收敛,根据所述文本语料进行语言模型的训练,并将训练后的所述语言模型集成至所述语音识别模型。更进一步的,所述对所述样本语音进行特征提取的步骤包括:对所述样本语音进行预加重处理,并对加重后的所述样本语音进行分帧处理,得到多帧语音信号;对每帧所述语音信号进行加窗处理,并对加窗后的所述语音信号进行快速傅里叶变换,得到所述语谱图特征。更进一步的,所述对所述语谱图特征进行长度排序,根据排序结果对所述语谱图特征进行长度补齐的步骤包括:将所述语谱图特征根据时间轴长度进行排序,并所述语谱图特征进行分组;在每组所述语谱图特征中,选取最长时间的所述语谱图特征设置为当前组的目标长度;将所述当前组中所有所述语谱图特征沿时间轴补0补齐至所述目标长度。更进一步的,所述将所述语谱图特征输入语音识别模型进行向量计算的步骤包括:将所述语谱图特征输入所述语音识别模型中的CNN网络,并控制所述CNN网络对所述语谱图特征进行卷积、池化和非线性变换,得到特征向量;将所述特征向量输入全连接网络,并根据softmax函数对所述全连接网络的输出进行概率计算,得到所述概率向量。更进一步的,所述根据所述样本文本和所述文本语料构建文本字典的步骤包括:对本地预存储的训练文本进行遍历,将所有不重复的字符加入到所述文本字典中,以构建字符集,且每个字符均用对应唯一的ID表示;将所述样本文本和所述文本语料中的字符根据所述字符集替换为对应的ID;将所述文本语料中未在所述字符集中的字符用第一标识表示;将所述第一标识加入到所述字符集中,并用当前所述字符集最大ID加1的数字表示;在所述字符集中添加静音分隔符,以描述语音中字符之间短暂的停顿,并用当前所述字符集最大ID加1的数字表示;将所述字符集中所有字符组成所述文本字典,并对所述文本字典进行独热编码,以使所述文本字典中每个字符均用一个等于所述字符集大小维度的向量表示。更进一步的,所述根据所述概率向量和所述文本字典进行损失计算的步骤包括:根据所述概率向量查询所述文本字典中对应的目标独热编码;将所有时间步输出的所述概率向量和对应的所述目标独热编码经过标签平滑后的向量求CTC损失函数,并求和以得到所述模型总损失。更进一步的,所述根据所述样本文本和所述文本语料构建文本字典的步骤之前,所述方法还包括:删除所述样本文本中的特殊字符,以保留文字、数字、逗号、句号和问号;将所述样本文本中的感叹号转换为句号,将全角转化为半角,并将英文形式的标点符号转换为对应的中文形式。本专利技术实施例的另一目的在于提供一种语音识别模型训练系统,所述系统包括:字典构建模块,用于获取样本语音、与所述样本语音对应的样本文本及文本语料,并根据所述样本文本和所述文本语料构建文本字典;特征提取模块,用于对所述样本语音进行特征提取,得到语谱图特征,并对所述语谱图特征进行长度排序,根据排序结果对所述语谱图特征进行长度补齐;损失计算模块,用于将所述语谱图特征输入语音识别模型进行向量计算,以得到概率向量,并根据所述概率向量和所述文本字典进行损失计算,以得到模型总损失;模型训练模块,用于将所述模型总损失在所述语音识别模型中进行传播,直至所述语音识别模型收敛,根据所述文本语料进行语言模型的训练,并将训练后的所述语言模型集成至所述语音识别模型。本专利技术实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的语音识别模型训练方法。本专利技术实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的语音识别模型训练方法的步骤。本专利技术实施例,无需进行发音词典的构建,降低了人力成本和模型训练的时间,提高了语音识别模型的训练效率,通过采用端到端的架构方式进行语音识别模型的训练,使得语音识别模型中所有参数同时进行更新,提高了模型训练效率和后续语音识别的效率。附图说明图1是本专利技术第一实施例提供的语音识别模型训练方法的流程图;图2是本专利技术第二实施例提供的语音识别模型训练方法的流程图;图3是本专利技术第三实施例提供的语音识别模型训练系统的结构示意图;图4是本专利技术第四实施例提供的移动终端的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。实施例一请参阅图1,是本专利技术第一实施例提供的语音识别模型训练方法的流程图,包括步骤:步骤S10,获取样本语音、与所述样本语音对应的样本文本及文本语料,并根据所述样本文本和所述文本语料本文档来自技高网...

【技术保护点】
1.一种语音识别模型训练方法,其特征在于,所述方法包括:/n获取样本语音、与所述样本语音对应的样本文本及文本语料,并根据所述样本文本和所述文本语料构建文本字典;/n对所述样本语音进行特征提取,得到语谱图特征,并对所述语谱图特征进行长度排序,根据排序结果对所述语谱图特征进行长度补齐;/n将所述语谱图特征输入语音识别模型进行向量计算,以得到概率向量,并根据所述概率向量和所述文本字典进行损失计算,以得到模型总损失;/n将所述模型总损失在所述语音识别模型中进行传播,直至所述语音识别模型收敛,根据所述文本语料进行语言模型的训练,并将训练后的所述语言模型集成至所述语音识别模型。/n

【技术特征摘要】
1.一种语音识别模型训练方法,其特征在于,所述方法包括:
获取样本语音、与所述样本语音对应的样本文本及文本语料,并根据所述样本文本和所述文本语料构建文本字典;
对所述样本语音进行特征提取,得到语谱图特征,并对所述语谱图特征进行长度排序,根据排序结果对所述语谱图特征进行长度补齐;
将所述语谱图特征输入语音识别模型进行向量计算,以得到概率向量,并根据所述概率向量和所述文本字典进行损失计算,以得到模型总损失;
将所述模型总损失在所述语音识别模型中进行传播,直至所述语音识别模型收敛,根据所述文本语料进行语言模型的训练,并将训练后的所述语言模型集成至所述语音识别模型。


2.如权利要求1所述的语音识别模型训练方法,其特征在于,所述对所述样本语音进行特征提取的步骤包括:
对所述样本语音进行预加重处理,并对加重后的所述样本语音进行分帧处理,得到多帧语音信号;
对每帧所述语音信号进行加窗处理,并对加窗后的所述语音信号进行快速傅里叶变换,得到所述语谱图特征。


3.如权利要求1所述的语音识别模型训练方法,其特征在于,所述对所述语谱图特征进行长度排序,根据排序结果对所述语谱图特征进行长度补齐的步骤包括:
将所述语谱图特征根据时间轴长度进行排序,并所述语谱图特征进行分组;
在每组所述语谱图特征中,选取最长时间的所述语谱图特征设置为当前组的目标长度;
将所述当前组中所有所述语谱图特征沿时间轴补0补齐至所述目标长度。


4.如权利要求1所述的语音识别模型训练方法,其特征在于,所述将所述语谱图特征输入语音识别模型进行向量计算的步骤包括:
将所述语谱图特征输入所述语音识别模型中的CNN网络,并控制所述CNN网络对所述语谱图特征进行卷积、池化和非线性变换,得到特征向量;
将所述特征向量输入全连接网络,并根据softmax函数对所述全连接网络的输出进行概率计算,得到所述概率向量。


5.如权利要求1所述的语音识别模型训练方法,其特征在于,所述根据所述样本文本和所述文本语料构建文本字典的步骤包括:
对本地预存储的训练文本进行遍历,将所有不重复的字符加入到所述文本字典中,以构建字符集,且每个字符均用对应唯一的ID表示;
将所述样本文本和所述文本语料中的字符根据所述字符集替换为对应的ID;
将所述文本语料中未在所述字符集中的字符用第一标识...

【专利技术属性】
技术研发人员:徐敏肖龙源李稀敏蔡振华刘晓葳
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1