语音识别方法和装置制造方法及图纸

技术编号:13365215 阅读:40 留言:0更新日期:2016-07-18 19:10
为提供更全面地提取特征和对音频刻画更为具体因而识别能力更强的语音识别技术,发明专利技术人提出了一种语音识别方法,包括下步骤:以预设采样参数以及预设格式存储儿童语音信息;从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型;以gmm-hmm模型为基础初始化一深度信念网络;以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型;利用所述基于深度信念网络的dnn-hmm模型进行语音识别。发明专利技术人同时提供了实现上述语音识别方法的语音识别装置。

【技术实现步骤摘要】

本专利技术涉及语音信息处理和软件领域,特别涉及一种语音识别方法和装置
技术介绍
随着语音交互技术不断的发展,语音识别技术已经较为成熟完善。但受限于用户群体和语料的采集难度,儿童语音识别效率一直没有很好的提升手段。在现有技术中,一种针对儿童的语音识别方法在提取语料声学特征的过程中加入声道长度归一化技术,以此来提升儿童语音的识别效率,并通过叠加多个模型的方式来训练声学模型。然而,现有主流的语音识别交互技术中,受限于语料的采集渠道和采集成本,目前成熟的语料库都只针对于成人的语音识别,鲜有儿童语料。同成年人的发音相比,儿童的发音发声速度变化迅速,咬字不准导致发音不清晰等问题,导致现有的语音识别徐婷对儿童的语音识别准确率极低。并且现有的声学模型构建多是采用高斯混合模型与隐马尔科夫模型相结合的方式,依据现有的特征提取方式,提取出的特征维度较少,不能很好的描述语音本身。
技术实现思路
基于此,需要提供一种能更全面地提取特征和对音频刻画更为具体因而识别能力更强的语音识别技术。为实现上述目的,专利技术人提供了一种语音识别方法,包括如下步骤:以预设采样参数以及预设格式存储儿童语音信息;从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型;以gmm-hmm模型为基础初始化一深度信念网络;以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型;利用所述基于深度信念网络的dnn-hmm模型进行语音识别。进一步地,所述的语音识别方法中,步骤“以gmm-hmm模型为基础初始化一深度信念网络”具体包括:提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型;训练所述输入信息的第一层受限玻尔兹曼机;以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机;对顶层受限玻尔兹曼机,结合带分类标签的训练数据进行训练,并得到初始化的深度信念网络进一步地,所述的语音识别方法中,所述“每帧音频及其前后若干帧音频”具体包括:每帧音频及其前4帧和后4帧音频;每帧音频及其前5帧和后5帧音频;每帧音频及其前4帧和后5帧音频;或每帧音频及其前5帧和后4帧音频。进一步地,所述的语音识别方法中,步骤“训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机”具体包括:使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。进一步地,所述的语音识别方法中,所述“预设采样参数以及预设格式”具体包括:采样率为8000、16000或22050Hz;采样位数为8位、16位或24位;单声道的wav格式或mp3格式。进一步地,所述的语音识别方法中,所述“预设采样参数以及预设格式”具体为:采样率为16000Hz、采样位数为16位、单声道的wav格式。进一步地,所述的语音识别方法中,步骤“训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型”具体包括:训练各状态的高斯混合模型,每一状态由若干帧构成;以各状态为基础构建隐马尔科夫模型,确定每个状态之间的状态转移概率。进一步地,所述的语音识别方法中,所述步骤“以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型”具体包括:经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐,改变原gmm-hmm模型的状态输出概率,得到基于深度信念网络的dnn-hmm模型。专利技术人同时还提供了一种语音识别装置,包括存储单元、参数提取单元、第一建模单元、第二建模单元和识别单元;所述存储单元用于以预设采样参数以及预设格式存储儿童语音信息;所述参数提取单元用于从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;所述第一建模单元用于训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型;所述第二建模单元用于以gmm-hmm模型为基础初始化一深度信念网络,并以经第一建模单元训练和构建的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型;所述识别单元用于利用所述基于深度信念网络的dnn-hmm模型进行语音识别。进一步地,所述的语音识别装置中,第二建模单元以gmm-hmm模型为基础初始化一深度信念网络具体包括:提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型;训练所述输入信息的第一层受限玻尔兹曼机;以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机;对顶层受限玻尔兹曼机,结合带分类标签的训练数据进行训练,并得到初始化的深度信念网络进一步地,所述的语音识别装置中,所述“每帧音频及其前后若干帧音频”具体包括:每帧音频及其前4帧和后4帧音频;每帧音频及其前5帧和后5帧音频;每帧音频及其前4帧和后5帧音频;或每帧音频及其前5帧和后4帧音频。进一步地,所述的语音识别装置中,第二建模单元训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机具体包括:使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。进一步地,所述的语音识别装置中,所述“预设采样参数以及预设格式”具体包括:采样率为8000、16000或22050Hz;采样位数为8位、16位或24位;单声道的wav格式或mp3格式。进一步地,所述的语音识别装置中,所述“预设采样参数以及预设格式”具体为:采样率为16000Hz、采样位数为16位、单声道的wav格式。进一步地,所述的语音识别装置中,第一建模单元训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型具体包括:训练各状态的高斯混合模型,每一状态由若干帧构成;以各状态为基础构建隐马尔科夫模型,确定每个状态之间的状态转移概率。进一步地,所述的语音识别装置中,第二建模单元以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括如下步骤:以预设采样参数以及预设格式存储儿童语音信息;从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型;以gmm‑hmm模型为基础初始化一深度信念网络;以经训练的混合高斯模型‑隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn‑hmm模型;利用所述基于深度信念网络的dnn‑hmm模型进行语音识别。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括如下步骤:
以预设采样参数以及预设格式存储儿童语音信息;
从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;
训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型;
以gmm-hmm模型为基础初始化一深度信念网络;
以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型;
利用所述基于深度信念网络的dnn-hmm模型进行语音识别。
2.如权利要求1所述的语音识别方法,其特征在于,步骤“以gmm-hmm模型为基础初始化一深度信念网络”具体包括:
提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型;
训练所述输入信息的第一层受限玻尔兹曼机;
以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机;
对顶层受限玻尔兹曼机,结合带分类标签的训练数据进行训练,并得到初始化的深度信念网络。
3.如权利要求2所述的语音识别方法,其特征在于,所述“每帧音频及其前后若干帧音频”具体包括:
每帧音频及其前4帧和后4帧音频;
每帧音频及其前5帧和后5帧音频;
每帧音频及其前4帧和后5帧音频;或
每帧音频及其前5帧和后4帧音频。
4.如权利要求2所述的语音识别方法,其特征在于,步骤“训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机”具体包括:
使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。
5.如权利要求1或2所述的语音识别方法,其特征在于,所述“预设采样参数以及预设格式”具体包括:
采样率为8000、16000或22050Hz;
采样位数为8位、16位或24位;
单声道的wav格式或mp3格式。
6.如权利要求5所述的语音识别方法,其特征在于,所述“预设采样参数以及预设格式”具体为:
采样率为16000Hz、采样位数为16位、单声道的wav格式。
7.如权利要求1或2所述的语音识别方法,其特征在于,步骤“训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型”具体包括:
训练各状态的高斯混合模型,每一状态由若干帧构成;以各状态为基础构建隐马尔科夫模型,确定每个状态之间的状态转移概率。
8.如权利要求1或2所述的语音识别方法,其特征在于,所述步骤“以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型”具体包括:
经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐,改变原gmm-hmm模型的状态输出概率,得到基于深度信念网络的dnn-hmm模型。
9.一种语音识别装置,其特征在于,包括存储单元、参数提取单元、第一建模单元、第二建模单元和识别单元;...

【专利技术属性】
技术研发人员:范思楠齐昕关胤王维兰吴拥民陈宏展刘德建
申请(专利权)人:福建天晴数码有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1