The invention provides a method, device and terminal equipment to extract acoustic features based on convolutional neural network, the acoustic feature extraction method based on convolution neural network, including: to be identified are arranged in a predetermined number of weft speech spectrogram; predetermined number on the weft through convolution neural network spectrogram identification the acoustic characteristics of speech, the to be identified in. The present application can realize the extraction of acoustic features in speech by convolutional neural networks, which can better demonstrate the acoustic characteristics of speech and improve the accuracy of speech recognition.
【技术实现步骤摘要】
基于卷积神经网络的声学特征提取方法、装置和终端设备
本申请涉及语音识别
,尤其涉及一种基于卷积神经网络的声学特征提取方法、装置和终端设备。
技术介绍
随着语音搜索业务的不断普及,越来越多的用户开始使用语音来搜索所需要的信息,语音搜索的比例逐年提高。为了提高语音识别的准确率,各种深度学习的方法被引入到语音识别领域,语音识别的准确率也逐步攀升。现有技术中,主要是利用局部权值共享(LocalWeightShare;以下简称:LWS)的卷积层来进行声学特征的提取,但是这种方式不能很好地表征语音中的声学特性,进而导致语音识别的准确率较低。
技术实现思路
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种基于卷积神经网络的声学特征提取方法。该方法通过卷积神经网络提取语音中的声学特征,从而可以更好地表征语音中的声学特性,提高语音识别的准确率。本申请的第二个目的在于提出一种基于卷积神经网络的声学特征提取装置。本申请的第三个目的在于提出一种终端设备。本申请的第四个目的在于提出一种包含计算机可执行指令的存储介质。为了实现上述目的,本申请第一方面实施例的基于卷积神经网络的声学特征提取方法,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。本申请实施例的基于卷积神经网络的声学特征提取方法中,将待识别的语音排列成预定纬数的语谱图,然后通过卷积神经网络对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征,从而可以实现通过卷积神经网络提取语音中的声学 ...
【技术保护点】
一种基于卷积神经网络的声学特征提取方法,其特征在于,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。
【技术特征摘要】
1.一种基于卷积神经网络的声学特征提取方法,其特征在于,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。2.根据权利要求1所述的方法,其特征在于,所述将待识别的语音排列成预定纬数的语谱图包括:每隔预定的时间间隔从所述待识别的语音中提取预定纬度的特征向量,以将所述待识别的语音排列成预定纬数的语谱图。3.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络对所述预定纬数的语谱图进行识别包括:通过卷积神经网络的残差网络结构对所述预定纬数的语谱图进行识别。4.根据权利要求3所述的方法,其特征在于,所述通过卷积神经网络的残差网络结构对所述预定纬数的语谱图进行识别之前,还包括:配置所述卷积神经网络的残差网络结构的模型。5.根据权利要求4所述的方法,其特征在于,所述配置所述卷积神经网络的残差网络结构的模型包括:对于由1个64通道的滤波器组的卷积有向无环图组成的64通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个128通道的滤波器组的卷积有向无环图组成的128通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个256通道的滤波器组的卷积有向无环图组成的256通道的滤波器模块,由池化层在频域上做降采样;对于由1个512通道的滤波器组的卷积有向无环图组成的512通道的滤波器模块,由池化层在频域上做降采样。6.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络对所述预定纬数的语谱图进行识别包括:通过卷积神经网络的跳跃链接结构对所述预定纬数的语谱图进行识别。7.根据权利要求6所述的方法,其特征在于,所述通过卷积神经网络的跳跃链接结构对所述预定纬数的语谱图进行识别之前,还包括:配置所述卷积神经网络的跳跃链接结构的模型。8.根据权利要求7所述的方法,其特征在于,所述配置所述卷积神经网络的跳跃链接结构的模型包括:对于由1个64通道的滤波器组的卷积有向无环图组成的64通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个128通道的滤波器组的卷积有向无环图组成的128通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个256通道的滤波器组的卷积有向无环图组成的256通道的滤波器模块,由池化层在频域上做降采样;对于由1个512通道的滤波器组的卷积有向无环图组成的512通道的滤波器模块,由池化层在频域上做降采样。9.一种基于卷积神经网络的声学特征提取装置,其特征在于,包括:生成模块,用于将待识别的语音排列成预定纬数的语谱图;识...
【专利技术属性】
技术研发人员:李超,李先刚,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。