一种基于深度神经网络的语音关键词识别方法及装置制造方法及图纸

技术编号:14986251 阅读:57 留言:0更新日期:2017-04-03 17:56
本发明专利技术提供了基于深度神经网络的语音关键词识别方法及装置,该方法包括:对待识别语音进行分帧得到多个语音帧;对每个语音帧进行特征提取,得到每个语音帧的梅尔倒谱特征系数MFCC序列;并行将每个语音帧的MFCC序列输入到预设的深度神经网络模型,分别计算每个语音帧的MFCC序列在预设的深度神经网络模型的输出层的每个神经单元下的后验概率,将输出层的每个神经单元下的后验概率组成多个语音帧对应的后验概率序列;监测输出层每个神经单元下的后验概率序列;根据后验概率序列与预设阈值的概率序列的比较结果确定待识别语音的关键词,利用预先训练好的深度神经网络进行语音关键词识别,提高了识别速度,缓解了识别延迟问题。

【技术实现步骤摘要】

本专利技术涉及语音关键词识别
,具体而言,涉及一种基于深度神经网络的语音关键词识别方法及装置
技术介绍
目前,随着智能化产品的广泛应用,存储设备性能和容量的提高,以及网络、通信的蓬勃发展,语音已经成为信息的有力载体,从而语音的处理和应用技术越来越受到人们的关注。其中,语音关键词识别技术是指在给定语音中识别出给定关键词并指明其所在的位置,语音关键词识别技术是语音识别技术的一个重要分支,是处理自然语音、实现人机语音交互的有效解决方案。在很多应用场景中语音关键词识别被广泛的应用,例如语音查询系统、语音检索系统、语音命令实时控制系统,并不需要逐字识别出语音包含的所有内容,而只需识别出给定语音中的预设关键词即可。因此,语音关键词识别技术应用前景广阔,成为语音识别领域的研究热点。当前,相关技术中提供了一种基于模型的语音关键词识别技术,例如,基于大词汇量的连续语音识别,需要先用语音识别器将语音信号转换成文本,再对给定关键词进行文本搜索,该语音关键词识别技术需在一整段连续语音完整输入后再进行语音信号转换;又如,基于关键词模型和填充(filler)模型的关键词识别,需要将所有非关键词识别成填充模型,该语音关键词识别技术也需在一整段连续语音完整输入时将所有的非关键词识别成填充模型,将关键词识别成关键词模型,进而确定一整段连续语音的关键词。在实现本专利技术的过程中,专利技术人发现相关技术中至少存在以下问题:目前语音关键词识别技术中存在识别延迟的问题,因此无法实现及时、快速地进行人机互动。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种基于深度神经网络的语音关键词识别方法及装置,以解决语音关键词识别技术中存在识别延迟的问题,提高语音关键词的识别速度,实现及时、快速地进行人机互动。第一方面,本专利技术实施例提供了一种基于深度神经网络的语音关键词识别方法,该识别方法包括:对待识别的输入语音进行分帧得到多个语音帧;对每个上述语音帧进行特征提取,得到每个上述语音帧的梅尔倒谱特征系数MFCC序列;并行将每个上述语音帧的MFCC序列输入到预设的深度神经网络模型,分别计算每个上述语音帧的MFCC序列在上述预设的深度神经网络模型的输出层的每个神经单元下的后验概率,将上述输出层的每个神经单元下的后验概率组成上述多个语音帧对应的后验概率序列,其中,输出层的每个神经单元对应一个关键词;监测输出层每个神经单元下的上述后验概率序列;根据上述后验概率序列与预设阈值的概率序列的比较结果确定上述待识别的输入语音的关键词。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,上述预设的深度神经网络模型通过以下方式建立:利用深度学习方法对选取的语音样本数据进行深度神经网络训练,得到预设的深度神经网络模型,其中,上述深度神经网络模型包括:由MFCC序列对应的神经单元组成的输入层、由非线性映射单元组成的隐藏层和由每个关键词的后验概率对应的神经单元组成的输出层。结合第一方面的第一种可能的实施方式,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,上述利用深度学习方法对选取的语音样本数据进行深度神经网络训练,得到预设的深度神经网络模型包括:根据选取的语音样本数据训练隐马尔科夫模型和混合高斯模型,其中,上述隐马尔科夫模型与上述选取的语音样本数据是一一对应的,上述混合高斯模型用来描述上述隐马尔科夫模型状态的输出概率分布;采用维特比译码算法利用训练好的上述隐马尔科夫模型和上述混合高斯模型对选取的语音样本数据进行起始帧和结束帧对齐处理,确定上述语音样本数据的边界信息;根据上述语音样本数据的语音信息、文本内容和上述语音样本数据的边界信息训练得到预设的深度神经网络模型。结合第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,上述利用深度学习方法对选取的语音样本数据进行深度神经网络训练,得到预设的深度神经网络模型之后,还包括:监测每个语音样本数据在训练好的上述预设的深度神经网络模型的输出层的每个神经单元下的后验概率;判断每个语音样本数据是否在对应的神经单元下的后验概率最大;若否,则利用反向传播算法对上述预设的深度神经网络模型的参数进行调整,直到每个语音样本数据均在对应的神经单元下的后验概率最大。结合第一方面至第一方面的第三种可能的实施方式中的任意一种,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,上述识别方法还包括:利用对应的隐马尔科夫模型对识别出的上述关键词进行打分处理,计算上述关键词在上述隐马尔科夫模型下的似然概率;若上述似然概率大于预设阈值,则确定识别结果为真。结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,根据上述后验概率序列与预设阈值的概率序列的比较结果确定上述待识别的输入语音的关键词包括:判断上述后验概率序列是否存在一个连续的数值子段均大于预设阈值的概率序列;若是,判断上述连续的数值子段所对应起始帧与结束帧之间的持续时间是否大于预设时间;当判断出上述连续的数值子段所对应起始帧与结束帧之间的持续时间大于预设时间时,将上述连续的数值子段所属的神经单元对应的关键词作为待识别的输入语音所表示的关键词。第二方面,本专利技术实施例还提供了一种基于深度神经网络的语音关键词识别装置,该识别装置包括:语音分帧模块,用于对待识别的输入语音进行分帧得到多个语音帧;特征提取模块,用于对每个上述语音帧进行特征提取,得到每个上述语音帧的梅尔倒谱特征系数MFCC序列;概率计算模块,用于并行将每个上述语音帧的MFCC序列输入到预设的深度神经网络模型,分别计算每个上述语音帧的MFCC序列在上述预设的深度神经网络模型的输出层的每个神经单元下的后验概率,将上述输出层的每个神经单元下的后验概率组成上述多个语音帧对应的后验概率序列,其中,输出层的每个神经单元对应一个关键词;监测模块,用于监测输出层每个神经单元下的上述后验概率序列;关键词识别模块,用于根据上述后验概率序列与预设阈值的概率序列的比较结果确定上述待识别的输入语音的关键词。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,上述预设的深度神经网络本文档来自技高网
...

【技术保护点】
一种基于深度神经网络的语音关键词识别方法,其特征在于,包括:对待识别的输入语音进行分帧得到多个语音帧;对每个所述语音帧进行特征提取,得到每个所述语音帧的梅尔倒谱特征系数MFCC序列;并行将每个所述语音帧的MFCC序列输入到预设的深度神经网络模型,分别计算每个所述语音帧的MFCC序列在所述预设的深度神经网络模型的输出层的每个神经单元下的后验概率,将所述输出层的每个神经单元下的后验概率组成所述多个语音帧对应的后验概率序列,其中,输出层的每个神经单元对应一个关键词;监测输出层每个神经单元下的所述后验概率序列;根据所述后验概率序列与预设阈值的概率序列的比较结果确定所述待识别的输入语音的关键词。

【技术特征摘要】
1.一种基于深度神经网络的语音关键词识别方法,其特征在于,
包括:
对待识别的输入语音进行分帧得到多个语音帧;
对每个所述语音帧进行特征提取,得到每个所述语音帧的梅尔
倒谱特征系数MFCC序列;
并行将每个所述语音帧的MFCC序列输入到预设的深度神经
网络模型,分别计算每个所述语音帧的MFCC序列在所述预设的深
度神经网络模型的输出层的每个神经单元下的后验概率,将所述输
出层的每个神经单元下的后验概率组成所述多个语音帧对应的后验
概率序列,其中,输出层的每个神经单元对应一个关键词;
监测输出层每个神经单元下的所述后验概率序列;
根据所述后验概率序列与预设阈值的概率序列的比较结果确定
所述待识别的输入语音的关键词。
2.根据权利要求1所述的基于深度神经网络的语音关键词识别
方法,其特征在于,所述预设的深度神经网络模型通过以下方式建
立:
利用深度学习方法对选取的语音样本数据进行深度神经网络训
练,得到预设的深度神经网络模型,其中,所述深度神经网络模型
包括:由MFCC序列对应的神经单元组成的输入层、由非线性映射

\t单元组成的隐藏层和由每个关键词的后验概率对应的神经单元组成
的输出层。
3.根据权利要求2所述的基于深度神经网络的语音关键词识别
方法,其特征在于,所述利用深度学习方法对选取的语音样本数据
进行深度神经网络训练,得到预设的深度神经网络模型包括:
根据选取的语音样本数据训练隐马尔科夫模型和混合高斯模
型,其中,所述隐马尔科夫模型与所述选取的语音样本数据是一一
对应的,所述混合高斯模型用来描述所述隐马尔科夫模型状态的输
出概率分布;
采用维特比译码算法利用训练好的所述隐马尔科夫模型和所述
混合高斯模型对选取的语音样本数据进行起始帧和结束帧对齐处
理,确定所述语音样本数据的边界信息;
根据所述语音样本数据的语音信息、文本内容和所述语音样本
数据的边界信息训练得到预设的深度神经网络模型。
4.根据权利要求3所述的基于深度神经网络的语音关键词识别
方法,其特征在于,所述利用深度学习方法对选取的语音样本数据
进行深度神经网络训练,得到预设的深度神经网络模型之后,还包
括:
监测每个语音样本数据在训练好的所述预设的深度神经网络模
型的输出层的每个神经单元下的后验概率;
判断每个语音样本数据是否在对应的神经单元下的后验概率最
大;
若否,则利用反向传播算法对所述预设的深度神经网络模型的
参数进行调整,直到每个语音样本数据均在对应的神经单元下的后
验概率最大。
5.根据权利要求1-4任一项所述的基于深度神经网络的语音关
键词识别方法,其特征在于,还包括:
利用对应的隐马尔科夫模型对识别出的所述关键词进行打分处
理,计算所述关键词在所述隐马尔科夫模型下的似然概率;
若所述似然概率大于预设阈值,则确定识别结果为真。
6.根据权利要求5所述的基于深度神经网络的语音关键词识别
方法,其特征在于,根据所述后验概率序列与预设阈值的概率序列
的比较结果确定所述待识别的输入语音的关键词包括:
判断所述后验概率序列是否存在一个连续的数值子段均大于预
设阈值的概率序列;
若是,判断所述连续的数值子段所对应起始帧与结束帧之间的
持续时间是否大于预设时间;
当判断出所述连续的数值子段所对应起始帧与结束帧之间的持
续时间大于预设时间时,将所述连续的数值子段所属的神经单元对
应的关键词作为待识别的输入语音所表示的关键词。
7.一种基于深度神经网络的语音关键词识别装置,其特征在于,
包括:
语音分帧模块,用于对待识别的输入语...

【专利技术属性】
技术研发人员:闫振雷魏磊磊
申请(专利权)人:深圳微服机器人科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1