The present invention in a speech recognition method based on the characteristics of the depth of the neural network training, the main contents include: Gabor filter characteristics, Gabor filter sub group, the depth of the neural network (DNN), to achieve recognition, the process for automatic speech recognition Gabor filter to extract the features from the speech signal, according to the standards for distributed speech recognition extracted from speech signal log Mel spectrum, then each 2D filter spectrum and Gabor filter convolution; choose specific modulation frequency, the filter transfer function in the frequency modulation domain showed constant overlap; automatic speech recognition system based on the test set and the word error rate evaluation, finally get recognition results. The invention of Gabor filter group can decrease the word recognition error rate, showing anti channel distortion, characteristics of low SNR; speech recognizer using high time modulation filter, the error rate is low, enhances the target class between distinguishabilty.
【技术实现步骤摘要】
一种基于深度神经网络特征训练的语音识别方法
本专利技术涉及语音识别领域,尤其是涉及了一种基于深度神经网络特征训练的语音识别方法。
技术介绍
语音识别以语音为研究对象,涉及生理学、心理学、语言学、计算机科学以及信号处理等多个领域,其最终目的是实现人与机器进行自然语言通信,用语言操纵计算机。在过去十年中,自动语音识别中已经取得了重大进展,其在我们日常生活中的应用也越来越广泛,如一些电话机、手机已经包含了语音识别拨号功能,一些语音记事本、语音智能玩具等产品也包括了语音识别与语音合成功能。人们已经可以通过电话网络使用语音查询机票、旅游、酒店等的信息,大大方便了人们的生活。然而,语音识别还存在识别不精准,字词的错误率较高的问题。本专利技术提出了一种基于深度神经网络特征训练的语音识别方法,Gabor滤波器从语音信号提取自动语音识别特征,先根据分布式语音识别标准从语音信号中提取对数Mel频谱图,接着频谱图与来自的Gabor滤波器组的每个2D滤波器进行卷积;选择特定的调制频率,使得滤波器的传递函数在调制频域中表现出恒定的重叠;自动语音识别系统根据测试集上的字错误率进行评估,最终获得识别结果。本专利技术应用的Gabor滤波器组中的滤波器子组能减少字词识别错误率,表现出抗信道失真、低信噪比的特点;使用Gabor特征训练的基于DNN的语音识别器,特别是高时间调制滤波器的语音识别器,误差率较低,增强了目标类之间的可辨别性。
技术实现思路
针对字词的错误率较高的问题,本专利技术的目的在于提供一种基于深度神经网络特征训练的语音识别方法,Gabor滤波器从语音信号提取自动语音识别特征,先根 ...
【技术保护点】
一种基于深度神经网络特征训练的语音识别方法,其特征在于,主要包括Gabor滤波器组特性(一);Gabor滤波器子组(二);深度神经网络(DNN)实现(三);识别(四)。
【技术特征摘要】
1.一种基于深度神经网络特征训练的语音识别方法,其特征在于,主要包括Gabor滤波器组特性(一);Gabor滤波器子组(二);深度神经网络(DNN)实现(三);识别(四)。2.基于权利要求书1所述的Gabor滤波器组特性(一),其特征在于,使用滤波器组中的一组二维Gabor滤波器从语音信号提取自动语音识别特征,先根据分布式语音识别标准从语音信号中提取对数Mel频谱图,使用31个频率信道;选择Log-Mel频谱图作为起点;接着,频谱图与来自的Gabor滤波器组的每个2D滤波器进行卷积;Gabor滤波器是复正弦函数和传统的高斯窗的乘积;用汉宁窗口代替高斯窗,能获得更好的识别分数;载波正弦波的周期性由弧度频率wn和wk(n和k分别表示时间和频率指数)定义,允许Gabor滤波器调谐到特定的光谱时间方向,纯时间(wk=0)或纯光谱(wn=0)调制。3.基于权利要求书2所述的滤波器,其特征在于,对于所有滤波器,局部滤波器的振荡数目保持恒定,值为3.5;所有滤波器被限制为69个频率信道和99个时间帧;s(n,k)=exp(iwn(n-n0)+wk(k-k0))(1)包络宽度由窗长度Wn、Wk、中心频率信道k0和中心时间帧n0参数化。4.基于权利要求书2所述的Gabor滤波器组,其特征在于,Gabor滤波器组包含一组时间、频谱和频谱时间滤波器,覆盖宽度范围的调制频率;频谱调制频率以每个信道2的周期表示;选择特定的调制频率,使得滤波器的传递函数在调制频域中表现出恒定的重叠。5.基于权利要求书4所述的信道,其特征在于,从特征矩阵中去除较大滤波器的频道,对于具有最小频谱范围的滤波器,所有信道都保留;通过选择以1kHz为中心的信道,将当前滤波器移动其频谱大小的四分之一并保留其中心频率信道来实现;由于Mel谱图谱尺寸小于最大Gabor滤波器,匹配2D卷积的频谱内容,并且保持每帧相同数目的特征而不引入显著的边界效应,初始和最后帧列分别填充在两个时间端;基于根据奈奎斯特-香农定理的频谱图完美重建所需的最小窗口重叠来选择偏移值;临界采样仅去除冗余信息。6.基于权利要求书1所述的Gabor滤波器子组(二),其特征在于,将原始滤波器划分为具有低、中和高时间调制频率的集合,其结果特征被称为低时间调制频率(从具有2.4和3.9Hz的时间调制的滤波器导出),中时间调制频率(6.2和9.9Hz)和高时间调制频率(15.7和25Hz);因为临界采样仅去除光谱通道,三个子组都留有...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。