一种基于深度神经网络特征训练的语音识别方法技术

技术编号:15765087 阅读:281 留言:0更新日期:2017-07-06 07:03
本发明专利技术中提出的一种基于深度神经网络特征训练的语音识别方法,其主要内容包括:Gabor滤波器组特性、Gabor滤波器子组、深度神经网络(DNN)实现、识别,其过程为,Gabor滤波器从语音信号提取自动语音识别特征,先根据分布式语音识别标准从语音信号中提取对数Mel频谱图,接着,频谱图与Gabor滤波器组的每个2D滤波器进行卷积;选择特定的调制频率,使得滤波器的传递函数在调制频域中表现出恒定重叠;自动语音识别系统根据测试集上的字错误率进行评估,最终获得识别结果。本发明专利技术Gabor滤波器子组能减少字词识别错误率,表现出抗信道失真、低信噪比的特点;使用高时间调制滤波器的语音识别器,误差率较低,增强了目标类之间的可辨别性。

A speech recognition method based on feature training of depth neural network

The present invention in a speech recognition method based on the characteristics of the depth of the neural network training, the main contents include: Gabor filter characteristics, Gabor filter sub group, the depth of the neural network (DNN), to achieve recognition, the process for automatic speech recognition Gabor filter to extract the features from the speech signal, according to the standards for distributed speech recognition extracted from speech signal log Mel spectrum, then each 2D filter spectrum and Gabor filter convolution; choose specific modulation frequency, the filter transfer function in the frequency modulation domain showed constant overlap; automatic speech recognition system based on the test set and the word error rate evaluation, finally get recognition results. The invention of Gabor filter group can decrease the word recognition error rate, showing anti channel distortion, characteristics of low SNR; speech recognizer using high time modulation filter, the error rate is low, enhances the target class between distinguishabilty.

【技术实现步骤摘要】
一种基于深度神经网络特征训练的语音识别方法
本专利技术涉及语音识别领域,尤其是涉及了一种基于深度神经网络特征训练的语音识别方法。
技术介绍
语音识别以语音为研究对象,涉及生理学、心理学、语言学、计算机科学以及信号处理等多个领域,其最终目的是实现人与机器进行自然语言通信,用语言操纵计算机。在过去十年中,自动语音识别中已经取得了重大进展,其在我们日常生活中的应用也越来越广泛,如一些电话机、手机已经包含了语音识别拨号功能,一些语音记事本、语音智能玩具等产品也包括了语音识别与语音合成功能。人们已经可以通过电话网络使用语音查询机票、旅游、酒店等的信息,大大方便了人们的生活。然而,语音识别还存在识别不精准,字词的错误率较高的问题。本专利技术提出了一种基于深度神经网络特征训练的语音识别方法,Gabor滤波器从语音信号提取自动语音识别特征,先根据分布式语音识别标准从语音信号中提取对数Mel频谱图,接着频谱图与来自的Gabor滤波器组的每个2D滤波器进行卷积;选择特定的调制频率,使得滤波器的传递函数在调制频域中表现出恒定的重叠;自动语音识别系统根据测试集上的字错误率进行评估,最终获得识别结果。本专利技术应用的Gabor滤波器组中的滤波器子组能减少字词识别错误率,表现出抗信道失真、低信噪比的特点;使用Gabor特征训练的基于DNN的语音识别器,特别是高时间调制滤波器的语音识别器,误差率较低,增强了目标类之间的可辨别性。
技术实现思路
针对字词的错误率较高的问题,本专利技术的目的在于提供一种基于深度神经网络特征训练的语音识别方法,Gabor滤波器从语音信号提取自动语音识别特征,先根据分布式语音识别标准从语音信号中提取对数Mel频谱图,接着,频谱图与来自的Gabor滤波器组的每个2D滤波器进行卷积;选择特定的调制频率,使得滤波器的传递函数在调制频域中表现出恒定的重叠;自动语音识别系统根据测试集上的字错误率进行评估,最终获得识别结果。为解决上述问题,本专利技术提供一种基于深度神经网络特征训练的语音识别方法,其主要内容包括:(一)Gabor滤波器组特性;(二)Gabor滤波器子组;(三)深度神经网络(DNN)实现;(四)识别。其中,所述的Gabor滤波器组特性,使用滤波器组中的一组二维Gabor滤波器从语音信号提取自动语音识别特征,先根据分布式语音识别标准从语音信号中提取对数Mel频谱图,使用31个频率信道;选择Log-Mel频谱图作为起点;接着,频谱图与来自的Gabor滤波器组的每个2D滤波器进行卷积;Gabor滤波器是复正弦函数和传统的高斯窗的乘积;用汉宁窗口代替高斯窗,能获得更好的识别分数;载波正弦波的周期性由弧度频率wn和wk(n和k分别表示时间和频率指数)定义,允许Gabor滤波器调谐到特定的光谱时间方向,纯时间(wk=0)或纯光谱(wn=0)调制。进一步地,所述的滤波器,对于所有滤波器,局部滤波器的振荡数目保持恒定,值为3.5;所有滤波器被限制为69个频率信道和99个时间帧;s(n,k)=exp(iwn(n-n0)+wk(k-k0))(1)包络宽度由窗长度Wn、Wk、中心频率信道k0和中心时间帧n0参数化。进一步地,所述的Gabor滤波器组,Gabor滤波器组包含一组时间、频谱和频谱时间滤波器,覆盖宽度范围的调制频率;频谱调制频率以每个信道2的周期表示;选择特定的调制频率,使得滤波器的传递函数在调制频域中表现出恒定的重叠。进一步地,所述的信道,从特征矩阵中去除较大滤波器的频道,对于具有最小频谱范围的滤波器,所有信道都保留;通过选择以1kHz为中心的信道,将当前滤波器移动其频谱大小的四分之一并保留其中心频率信道来实现;由于Mel谱图谱尺寸小于最大Gabor滤波器,匹配2D卷积的频谱内容,并且保持每帧相同数目的特征而不引入显著的边界效应,初始和最后帧列分别填充在两个时间端;基于根据奈奎斯特-香农定理的频谱图完美重建所需的最小窗口重叠来选择偏移值;临界采样仅去除冗余信息。其中,所述的Gabor滤波器子组,将原始滤波器划分为具有低、中和高时间调制频率的集合,其结果特征被称为低时间调制频率(从具有2.4和3.9Hz的时间调制的滤波器导出),中时间调制频率(6.2和9.9Hz)和高时间调制频率(15.7和25Hz);因为临界采样仅去除光谱通道,三个子组都留有完全相同的通道;当使用高斯混合模型-隐马尔可夫模型(GMM-HMM)识别器和Gabor滤波器组时,每个单独的2D滤波器能观察到的噪声鲁棒性;最有用的语言信息来自2~16Hz(以4Hz为主要分量)的调制频率分量,高于或低于该范围的分量可能降低识别精度;建立在4Hz和16Hz之间的调制频谱分量的间隔对于语音识别度很重要;当存在较低分量时,显示了高于16Hz的调制频率的边际贡献;特征提取程序在6Hz附近对时间调制执行最佳。其中,所述的深度神经网络(DNN)实现,该实现可分为两个阶段:预训练和交叉熵调谐;在前一阶段,使用对比发散,以贪婪的方式一次一层地训练限制波尔兹曼机(RBM)的堆叠,也称为深信任网络(DBN);在后一阶段,作为最终网络的骨干,微调DBN,使用独立开发集合、网络输出和标签之间的交叉熵作为成本函数将帧分类为三元组;对于每个特征,训练GMM系统而不改变任何基线配置(除了特征本身),提供上下文相关状态到帧的对齐;执行预训练初始化DNN,使用由GMM系统提供的类标签;微调之后,使用由DNN产生的标签重新训练DNN。其中,所述的识别,Gabor滤波器组中的滤波器子组能够进一步减少识别任务中字词的错误率。进一步地,所述的识别标准,通常,自动语音识别系统根据测试集上的字错误率进行评估;作为评估特定特征,将输入分离为可区分类别的程度的标准,选择余弦相似性;基于L2,该度量不随坐标系旋转,因此可以比较不同特征之间的可辨性;余弦相似性定义为:其中,每个向量是给定音素类的所有收集的示例的质心(均值和方差归一化),分子是相应音素类之间的内积,分母是其范数的乘积;余弦相似性测量由0和1之间的值表示的两个向量之间的关系;该值越接近0,由这两个向量形成的角度越宽。进一步地,所述的音素分离,通常,相似性表示音素分离在超空间中投影的接近程度,因此较高的值增加了由DNN执行的音素分离的难度;具有较大距离的类基本不会被混淆,相反地,较小的角度(相似性值接近1)导致较高的误分类;通过计算列表中每个音素之间的相似性获得相似性矩阵;这些矩阵是单位矩阵,相似性矩阵越像单位矩阵,系统的分类能力越好;对于每个语料库,计算相似性矩阵能更好地理解由基于听觉的特征编码的信息与用于识别任务的DNN的组合的相关性。附图说明图1是本专利技术一种基于深度神经网络特征训练的语音识别方法的系统框架图。图2是本专利技术一种基于深度神经网络特征训练的语音识别方法的Gabor滤波器提取自动语音识别特征。图3是本专利技术一种基于深度神经网络特征训练的语音识别方法的低、中和高时间调制的光谱-时间关系。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本专利技术作进一步详细说明。图1是本专利技术一种基于深度神经网络特征训练的语音识别方法的系统框架图。主要包括Gabor滤波器组特性、Gabor滤波器子组、深度神本文档来自技高网...
一种基于深度神经网络特征训练的语音识别方法

【技术保护点】
一种基于深度神经网络特征训练的语音识别方法,其特征在于,主要包括Gabor滤波器组特性(一);Gabor滤波器子组(二);深度神经网络(DNN)实现(三);识别(四)。

【技术特征摘要】
1.一种基于深度神经网络特征训练的语音识别方法,其特征在于,主要包括Gabor滤波器组特性(一);Gabor滤波器子组(二);深度神经网络(DNN)实现(三);识别(四)。2.基于权利要求书1所述的Gabor滤波器组特性(一),其特征在于,使用滤波器组中的一组二维Gabor滤波器从语音信号提取自动语音识别特征,先根据分布式语音识别标准从语音信号中提取对数Mel频谱图,使用31个频率信道;选择Log-Mel频谱图作为起点;接着,频谱图与来自的Gabor滤波器组的每个2D滤波器进行卷积;Gabor滤波器是复正弦函数和传统的高斯窗的乘积;用汉宁窗口代替高斯窗,能获得更好的识别分数;载波正弦波的周期性由弧度频率wn和wk(n和k分别表示时间和频率指数)定义,允许Gabor滤波器调谐到特定的光谱时间方向,纯时间(wk=0)或纯光谱(wn=0)调制。3.基于权利要求书2所述的滤波器,其特征在于,对于所有滤波器,局部滤波器的振荡数目保持恒定,值为3.5;所有滤波器被限制为69个频率信道和99个时间帧;s(n,k)=exp(iwn(n-n0)+wk(k-k0))(1)包络宽度由窗长度Wn、Wk、中心频率信道k0和中心时间帧n0参数化。4.基于权利要求书2所述的Gabor滤波器组,其特征在于,Gabor滤波器组包含一组时间、频谱和频谱时间滤波器,覆盖宽度范围的调制频率;频谱调制频率以每个信道2的周期表示;选择特定的调制频率,使得滤波器的传递函数在调制频域中表现出恒定的重叠。5.基于权利要求书4所述的信道,其特征在于,从特征矩阵中去除较大滤波器的频道,对于具有最小频谱范围的滤波器,所有信道都保留;通过选择以1kHz为中心的信道,将当前滤波器移动其频谱大小的四分之一并保留其中心频率信道来实现;由于Mel谱图谱尺寸小于最大Gabor滤波器,匹配2D卷积的频谱内容,并且保持每帧相同数目的特征而不引入显著的边界效应,初始和最后帧列分别填充在两个时间端;基于根据奈奎斯特-香农定理的频谱图完美重建所需的最小窗口重叠来选择偏移值;临界采样仅去除冗余信息。6.基于权利要求书1所述的Gabor滤波器子组(二),其特征在于,将原始滤波器划分为具有低、中和高时间调制频率的集合,其结果特征被称为低时间调制频率(从具有2.4和3.9Hz的时间调制的滤波器导出),中时间调制频率(6.2和9.9Hz)和高时间调制频率(15.7和25Hz);因为临界采样仅去除光谱通道,三个子组都留有...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1