基于卷积神经网络的声学特征提取方法、装置和终端设备制造方法及图纸

技术编号:15705538 阅读:238 留言:0更新日期:2017-06-26 14:13
本申请提出一种基于卷积神经网络的声学特征提取方法、装置和终端设备,该基于卷积神经网络的声学特征提取方法,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。本申请可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。

Acoustic feature extraction method, device and terminal device based on convolutional neural network

The invention provides a method, device and terminal equipment to extract acoustic features based on convolutional neural network, the acoustic feature extraction method based on convolution neural network, including: to be identified are arranged in a predetermined number of weft speech spectrogram; predetermined number on the weft through convolution neural network spectrogram identification the acoustic characteristics of speech, the to be identified in. The present application can realize the extraction of acoustic features in speech by convolutional neural networks, which can better demonstrate the acoustic characteristics of speech and improve the accuracy of speech recognition.

【技术实现步骤摘要】
基于卷积神经网络的声学特征提取方法、装置和终端设备
本申请涉及语音识别
,尤其涉及一种基于卷积神经网络的声学特征提取方法、装置和终端设备。
技术介绍
随着语音搜索业务的不断普及,越来越多的用户开始使用语音来搜索所需要的信息,语音搜索的比例逐年提高。为了提高语音识别的准确率,各种深度学习的方法被引入到语音识别领域,语音识别的准确率也逐步攀升。现有技术中,主要是利用局部权值共享(LocalWeightShare;以下简称:LWS)的卷积层来进行声学特征的提取,但是这种方式不能很好地表征语音中的声学特性,进而导致语音识别的准确率较低。
技术实现思路
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种基于卷积神经网络的声学特征提取方法。该方法通过卷积神经网络提取语音中的声学特征,从而可以更好地表征语音中的声学特性,提高语音识别的准确率。本申请的第二个目的在于提出一种基于卷积神经网络的声学特征提取装置。本申请的第三个目的在于提出一种终端设备。本申请的第四个目的在于提出一种包含计算机可执行指令的存储介质。为了实现上述目的,本申请第一方面实施例的基于卷积神经网络的声学特征提取方法,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。本申请实施例的基于卷积神经网络的声学特征提取方法中,将待识别的语音排列成预定纬数的语谱图,然后通过卷积神经网络对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征,从而可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。为了实现上述目的,本申请第二方面实施例的基于卷积神经网络的声学特征提取装置,包括:生成模块,用于将待识别的语音排列成预定纬数的语谱图;识别模块,用于通过卷积神经网络对所述生成模块生成的预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。本申请实施例的基于卷积神经网络的声学特征提取装置中,生成模块将待识别的语音排列成预定纬数的语谱图,然后识别模块通过卷积神经网络对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征,从而可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。为了实现上述目的,本申请第三方面实施例的终端设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。为了实现上述目的,本申请第四方面实施例的包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请基于卷积神经网络的声学特征提取方法一个实施例的流程图;图2为本申请基于卷积神经网络的声学特征提取方法中语谱图一个实施例的示意图;图3为本申请基于卷积神经网络的声学特征提取方法另一个实施例的流程图;图4为本申请基于卷积神经网络的声学特征提取方法再一个实施例的流程图;图5为本申请基于卷积神经网络的声学特征提取方法中残差网络结构的模型的配置一个实施例的示意图;图6为本申请基于卷积神经网络的声学特征提取方法中64通道的滤波器模块一个实施例的示意图;图7为本申请基于卷积神经网络的声学特征提取方法中128通道的滤波器模块一个实施例的示意图;图8为本申请基于卷积神经网络的声学特征提取方法中256通道的滤波器模块一个实施例的示意图;图9为本申请基于卷积神经网络的声学特征提取方法中512通道的滤波器模块一个实施例的示意图;图10为本申请基于卷积神经网络的声学特征提取方法再一个实施例的流程图;图11为本申请基于卷积神经网络的声学特征提取方法再一个实施例的流程图;图12为本申请基于卷积神经网络的声学特征提取方法中跳跃链接结构的模型的配置一个实施例的示意图;图13为本申请基于卷积神经网络的声学特征提取方法中64通道的滤波器模块另一个实施例的示意图;图14为本申请基于卷积神经网络的声学特征提取方法中128通道的滤波器模块另一个实施例的示意图;图15为本申请基于卷积神经网络的声学特征提取方法中256通道的滤波器模块另一个实施例的示意图;图16为本申请基于卷积神经网络的声学特征提取方法中512通道的滤波器模块另一个实施例的示意图;图17为本申请基于卷积神经网络的声学特征提取装置一个实施例的结构示意图;图18为本申请基于卷积神经网络的声学特征提取装置另一个实施例的结构示意图;图19为本申请终端设备一个实施例的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1为本申请基于卷积神经网络的声学特征提取方法一个实施例的流程图,如图1所示,上述基于卷积神经网络的声学特征提取方法可以包括:步骤101,将待识别的语音排列成预定纬数的语谱图。具体地,可以每隔预定的时间间隔从上述待识别的语音中提取预定纬度的特征向量,以将上述待识别的语音排列成预定纬数的语谱图。其中,上述预定纬数、预定纬度和预定的时间间隔可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述预定纬数、预定纬度和预定的时间间隔的大小不作限定。举例来说,为了能够使用2纬的卷积操作,首先要将待识别的语音排列成2纬的图像格式,以语音识别中常用的40纬度滤波器组(filterbank)特征为例,每10ms提取一个40纬度的特征向量,那么待识别的语音就可以排列成一张语谱图,如图2所示,图2为本申请基于卷积神经网络的声学特征提取方法中语谱图一个实施例的示意图,图2中,横轴表示时间,纵轴表示频点。本例中,上述预定纬数为2纬,预定纬度为40纬度,预定的时间间隔为10ms。步骤102,通过卷积神经网络对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征。上述基于卷积神经网络的声学特征提取方法中,将待识别的语音排列成预定纬数的语谱图,然后通过卷积神经网络对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征,从而可以实现通过卷积神经网络提取语音中的声学特征,可以更好地表征语音中的声学特性,提高语音识别的准确率。图3为本申请基于卷积神经网络的声学特征提取方法另一个实施例的流程图,如图3所示,本申请图1所示实施例中,步骤102可以为:步骤301,通过卷积神经网络的残差网络结构对上述预定纬数的语谱图进行识别,获得上述待识别的语音中的声学特征。图4为本申请基于卷积神经网络的声学特征提取方法再一个实施例的流程图,如图4所示,本申请图3所示实施例中,步骤301之前,还可以包括:步骤401,配置卷积神经网络本文档来自技高网...
基于卷积神经网络的声学特征提取方法、装置和终端设备

【技术保护点】
一种基于卷积神经网络的声学特征提取方法,其特征在于,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。

【技术特征摘要】
1.一种基于卷积神经网络的声学特征提取方法,其特征在于,包括:将待识别的语音排列成预定纬数的语谱图;通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。2.根据权利要求1所述的方法,其特征在于,所述将待识别的语音排列成预定纬数的语谱图包括:每隔预定的时间间隔从所述待识别的语音中提取预定纬度的特征向量,以将所述待识别的语音排列成预定纬数的语谱图。3.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络对所述预定纬数的语谱图进行识别包括:通过卷积神经网络的残差网络结构对所述预定纬数的语谱图进行识别。4.根据权利要求3所述的方法,其特征在于,所述通过卷积神经网络的残差网络结构对所述预定纬数的语谱图进行识别之前,还包括:配置所述卷积神经网络的残差网络结构的模型。5.根据权利要求4所述的方法,其特征在于,所述配置所述卷积神经网络的残差网络结构的模型包括:对于由1个64通道的滤波器组的卷积有向无环图组成的64通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个128通道的滤波器组的卷积有向无环图组成的128通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个256通道的滤波器组的卷积有向无环图组成的256通道的滤波器模块,由池化层在频域上做降采样;对于由1个512通道的滤波器组的卷积有向无环图组成的512通道的滤波器模块,由池化层在频域上做降采样。6.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络对所述预定纬数的语谱图进行识别包括:通过卷积神经网络的跳跃链接结构对所述预定纬数的语谱图进行识别。7.根据权利要求6所述的方法,其特征在于,所述通过卷积神经网络的跳跃链接结构对所述预定纬数的语谱图进行识别之前,还包括:配置所述卷积神经网络的跳跃链接结构的模型。8.根据权利要求7所述的方法,其特征在于,所述配置所述卷积神经网络的跳跃链接结构的模型包括:对于由1个64通道的滤波器组的卷积有向无环图组成的64通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个128通道的滤波器组的卷积有向无环图组成的128通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个256通道的滤波器组的卷积有向无环图组成的256通道的滤波器模块,由池化层在频域上做降采样;对于由1个512通道的滤波器组的卷积有向无环图组成的512通道的滤波器模块,由池化层在频域上做降采样。9.一种基于卷积神经网络的声学特征提取装置,其特征在于,包括:生成模块,用于将待识别的语音排列成预定纬数的语谱图;识...

【专利技术属性】
技术研发人员:李超李先刚
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1