当前位置: 首页 > 专利查询>四川大学专利>正文

四川方言识别方法、声学模型训练方法、装置及设备制造方法及图纸

技术编号:19483213 阅读:32 留言:0更新日期:2018-11-17 10:56
本发明专利技术提供的四川方言识别方法、声学模型训练方法、装置及设备,属于语音识别技术领域。该声学模型训练方法包括采集四川方言语音数据;对所述四川方言语音数据进行特征提取,获取语音特征;采用隐马尔可夫模型-混合高斯模型对所述语音特征进行训练,获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征;采用深度延迟LSTM模型对所述待处理语音特征进行训练,获取目标声学模型。该声学模型训练方法可有效节省声学模型训练所需时间,提高训练效率,并保证识别效率和识别准确率。

【技术实现步骤摘要】
四川方言识别方法、声学模型训练方法、装置及设备
本专利技术涉及语音识别
,具体而言,涉及四川方言识别方法、声学模型训练方法、装置及设备。
技术介绍
语音识别任务是将一段包含了自然语言发音的声学信号投影到说话人的词序列上。从二十世纪八十年代到2009~2012年,最先进的语音识别系统结合了隐马尔可夫模型(hiddenmarkovmodel,HMM)和混合高斯模型(gaussianmixturemodel,GMM),然而此期间语音识别效果并不能够达到商用水平。2009年,Hinton将深度神经网络(deepneuralnetwork,DNN)介绍给做语音识别的学者们,2010年产生了巨大突破。在Hinton团队与微软、谷歌、IBM研究团队的共同努力下,把GMM替换成DNN,相对识别错误率下降近30%。后续的语音识别研究几乎全部基于深度学习,大多是对Hinton提出的模型架构进行改进,或者是针对不同的语言特点构建相应的语音识别系统。目前中国有超过一亿人口使用四川方言,然而对四川方言识别效果很差,且当前声学模型训练后对语音识别效果较差,使得用户体验效果不好。
技术实现思路
本专利技术实施例提供的声学模型训练方法、装置、设备及介质,可以解决现有技术中的模型存在的识别错误率较高的技术问题。本专利技术实施例提供的四川方言识别方法、装置、设备及介质,可以解决现有技术中的方言识别存在的识别效率低的技术问题。第一方面,本专利技术实施例提供的一种声学模型训练方法,包括:采集四川方言语音数据;对所述四川方言语音数据进行特征提取,获取语音特征;采用隐马尔可夫模型-混合高斯模型对所述语音特征进行训练,获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征;采用深度延迟LSTM模型对所述待处理语音特征进行训练,获取目标声学模型。结合第一方面,第一方面的一种实施方式,所述的对所述四川方言语音数据进行特征提取,包括:将所述四川方言语音数据以20毫秒为一帧进行切割;对每一帧所述四川方言语音数据进行特征提取。结合第一方面,在第一方面的另一种实施方式,所述的对所述四川方言语音数据进行特征提取,获取语音特征,包括:将每条所述四川方言语音数据按照语意切割成多条预设长度的语音数据,并给出每条语音数据所对应的中文标签;提取每条语音数据的梅尔频率倒谱系数特征。结合第一方面,在第一方面的另一种实施方式,所述的采用深度延迟LSTM模型对所述待处理语音特征进行训练,包括:采用反向传播算法对深度延迟LSTM模型进行训练,获取训练后的神经网络模型;通过所述训练后的神经网络模型对所述待处理语音特征进行训练。结合第一方面,在第一方面的另一种实施方式,所述的采用隐马尔可夫模型-混合高斯模型对所述语音特征进行训练,获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征,包括:基于隐马尔可夫模型-混合高斯模型对所述语音特征进行训练;采用强制对齐对每一帧所述语音特征打上所对应的分类标签;生成带所述分类标签的待处理语音特征。第二方面,本专利技术实施例提供的一种四川方言识别方法,包括:获取用户输入的语音数据;采用如第一方面任意一项所述的声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别,获取识别结果;将所述识别结果以字符文本序列输出。第三方面,本专利技术实施例提供的一种声学模型训练装置,包括:获取模块,用于采集四川方言语音数据;特征提取模块,用于对所述四川方言语音数据进行特征提取,获取语音特征;第一训练模块,用于采用隐马尔可夫模型-混合高斯模型对所述语音特征进行训练,获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征;第二训练模块,用于采用深度延迟LSTM模型对所述待处理语音特征进行训练,获取目标声学模型。第四方面,本专利技术实施例提供的一种四川方言识别装置,包括:获取模块,用于获取用户输入的语音数据;识别模块,用于采用如第一方面任意一项所述的声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别,获取识别结果;输出模块,用于将所述识别结果以字符文本序列输出。第五方面,本专利技术实施例提供的一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述声学模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现如第二方面所述四川方言识别方法的步骤。第六方面,本专利技术实施例提供的一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的声学模型训练方法;或者使得所述计算机执行如第二方面所述的四川方言识别方法的步骤。与现有技术相比,本专利技术实施例提供的声学模型训练方法、装置、设备及介质有益效果是:通过采集四川方言语音数据;对所述四川方言语音数据进行特征提取,获取语音特征;采用隐马尔可夫模型-混合高斯模型对所述语音特征进行训练,获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征;采用深度延迟LSTM模型对所述待处理语音特征进行训练,获取目标声学模型。可以有效提高声学模型训练的效率并节省训练时间。采用LSTM模型对语音特征进行训练,只需进行一次训练即要实现HMM-DNN训练多次的效果,可极大降低所需的训练时间,并取得比HMM-DNN训练更好的识别效果。即该声学模型训练方法中,无需预先训练出一个隐马尔科夫模型-深度神经网络模型(即HMM-DNN声学模型)再进行序列训练;而是将序列训练融入到HMM-LSTM模型的训练过程中,通过HMM-LSTM模型进行一次训练即可,可极大降低所需的训练时间,并通过深度延迟LSTM模型能够获取更多的上下文信息,显著提升了识别效果,其相对错误率相比HMM-GMM下降23.94%,与HMM-DNN相比其相对错误率下降14.86%。。从而取得比DNN-HMM声学模型或DNN-HMM-序列训练模型训练更好的识别效果。本专利技术实施例提供的四川方言识别方法、装置、设备及介质有益效果是:通过获取用户输入的语音数据;采用声学模型训练方法所获取到的目标声学模型以及预设的四川话词典和语言模型对所述语音数据进行识别,获取识别结果;将所述识别结果以字符文本序列输出。可以快速识别四川话方言,并且有效提高识别准确率。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术第一实施例提供的声学模型训练方法的流程图;图2为图1所示的声学模型训练方法中的LSTM模型的示意图;图3为本专利技术第二实施例提供的声学模型训练装置的功能模块示意图;图4为本专利技术第三实施例提供的四川方言识别方法的流程图;图5为本专利技术第四实施例提供的四川方言识别装置的功能模块示意图;图6为本专利技术第五实施例提供的一种终端设备的示意本文档来自技高网...

【技术保护点】
1.一种声学模型训练方法,其特征在于,包括:采集四川方言语音数据;对所述四川方言语音数据进行特征提取,获取语音特征;采用隐马尔可夫模型-混合高斯模型对所述语音特征进行训练,获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征;采用深度延迟LSTM模型对所述待处理语音特征进行训练,获取目标声学模型。

【技术特征摘要】
1.一种声学模型训练方法,其特征在于,包括:采集四川方言语音数据;对所述四川方言语音数据进行特征提取,获取语音特征;采用隐马尔可夫模型-混合高斯模型对所述语音特征进行训练,获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征;采用深度延迟LSTM模型对所述待处理语音特征进行训练,获取目标声学模型。2.根据权利要求1所述的方法,其特征在于,所述的对所述四川方言语音数据进行特征提取,包括:将所述四川方言语音数据以20毫秒为一帧进行切割;对每一帧所述四川方言语音数据进行特征提取。3.根据权利要求1所述的方法,其特征在于,所述的对所述四川方言语音数据进行特征提取,获取语音特征,包括:将每条所述四川方言语音数据按照语意切割成多条预设长度的语音数据,并给出每条语音数据所对应的中文标签;提取每条语音数据的梅尔频率倒谱系数特征。4.根据权利要求1所述的方法,其特征在于,所述的采用深度延迟LSTM模型对所述待处理语音特征进行训练,包括:采用反向传播算法对深度延迟LSTM模型进行训练,获取训练后的神经网络模型;通过所述训练后的神经网络模型对所述待处理语音特征进行训练。5.根据权利要求1所述的方法,其特征在于,所述的采用隐马尔可夫模型-混合高斯模型对所述语音特征进行训练,获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征,包括:基于隐马尔可夫模型-混合高斯模型对所述语音特征进行训练;采用强制对齐对每一帧所述语音特征打上所对应的分类标签;生成带所述分类标签的待处理语音特征。6.一种四川方言识别方法,其特征在于,包...

【专利技术属性】
技术研发人员:张蕾应汪洋章毅郭际香陈媛媛
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1