语音识别方法和装置制造方法及图纸

技术编号:14189879 阅读:93 留言:0更新日期:2016-12-15 01:51
本申请提出一种语音识别方法和装置,该语音识别方法包括:对输入的语音进行声学特征提取,得到声学特征;获取声学模型,其中,所述声学模型的参数是二值化参数;根据所述声学特征和所述声学模型进行语音识别。该方法能够适用于嵌入式语音识别。

Speech recognition method and apparatus

The invention provides a speech recognition method and apparatus, including the speech recognition method of input speech acoustic feature extraction, get acoustic characteristics; obtain acoustic model, the parameters of the acoustic model is binarization parameters; according to the acoustic characteristics of speech recognition and the acoustic model. This method can be applied to embedded speech recognition.

【技术实现步骤摘要】

本申请涉及语音处理
,尤其涉及一种语音识别方法和装置
技术介绍
随着智能手机、平板电脑等移动设备的不断普及,语音作为一种自然的人机交互手段,在人们的日常生活工作中发挥着越来重要的作用。语音识别用于将语音识别为文本。语音识别可以分为联网语音识别和嵌入式语音识别,联网语音识别是指用户通过网络将语音信号上传给服务器,由服务器进行语音识别,并将识别结果返回给用户。嵌入式语音识别是指用户通过嵌入在智能终端内的语音识别器进行语音识别。语音识别的一个关键部分是声学模型,目前生成的声学模型都比较大。因此无法直接将服务器使用的声学模型直接应用于智能终端,需要给出适用于嵌入式语音识别的解决方案。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种语音识别方法,该方法可以适用于嵌入式语音识别。本申请的另一个目的在于提出一种语音识别装置。为达到上述目的,本申请第一方面实施例提出的语音识别方法,包括:对输入的语音进行声学特征提取,得到声学特征;获取声学模型,其中,所述声学模型的参数是二值化参数;根据所述声学特征和所述声学模型进行语音识别。本申请第一方面实施例提出的语音识别方法,通过采用参数是二值化参数的声学模型,可以显著减小声学模型的大小,降低所需存储空间,从而可以适用于嵌入式语音识别。为达到上述目的,本申请第二方面实施例提出的语音识别装置,包括:特征提取模块,用于对输入的语音进行声学特征提取,得到声学特征;获取模块,用于获取声学模型,其中,所述声学模型的参数是二值化参数;识别模块,用于根据所述声学特征和所述声学模型进行语音识别。本申请第二方面实施例提出的语音识别装置,通过采用参数是二值化参数的声学模型,可以显著减小声学模型的大小,降低所需存储空间,从而可以适用于嵌入式语音识别。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本申请一个实施例提出的语音识别方法的流程示意图;图2是本申请另一个实施例提出的语音识别方法的流程示意图;图3是本申请实施例中二值化的激活函数的示意图;图4是本申请实施例中二值化网络的示意图;图5是本申请一个实施例提出的语音识别装置的结构示意图;图6是本申请一个实施例提出的语音识别装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。本申请将以嵌入式语音识别进行说明。但是,可以理解的是,本实施例的方法不限于嵌入式语音识别,也可以应用于联网语音识别,即服务器也可以采用如下的方案。相对于服务器,智能终端的存储空间、计算能力和资源都是比较差的,因此不能直接将服务器采用的声学模型直接应用于嵌入式语音识别中。为了适用于嵌入式语音识别,需要减小声学模型的大小。目前通常采用深度神经网络(Deep Neural Networks,DNN)和隐马尔科夫模型(hidden Markov model,HMM)混合建模生成声学模型。为了有效减少声学模型的大小,本申请将基于如下的主要思路:对声学模型的参数进行改变,由浮点数表示方式改变为用二值化表示。进一步的,在声学特征经过DNN时,输出也转换为二值化。需要说明的是,虽然上述对主要思路进行了说明,但是,具体的技术方案不限于上述的主要思路,还可以与其他特征相互结合,这些不同技术特征之间的结合依然属于本申请的保护范围。需要说明的是,虽然上述给出了主要解决的技术问题,但是,本申请并不限于仅能解决上述技术问题,应用本申请给出的技术方案还可以解决的其他技术问题依然属于本申请的保护范围。需要说明的是,本申请的每个实施例不限于能够全部完美解决所有的技术问题,而在至少在一定程度上解决至少一个技术问题。需要说明的是,虽然上述给出了本申请的主要思路,以及后续实施例会对一些特别点进行说明。但是,本申请的创新点并不限于上述的主要思路及特别点所涉及的内容,并不排除本申请中一些并未特殊说明的内容依然可能会包含本申请的创新点。可以理解的是,虽然上述进行了一些说明,但依然不排除其他可能方案,因此,与后续本申请给出的实施例相同、相似、等同等情况的技术方案依然属于本申请的保护范围。下面将结合具体实施例对本申请的技术方案进行说明。本申请中涉及的智能终端可以包括智能手机、平板电脑、智能可穿戴式设备、车载终端、智能机器人、智能家电等各种能够应用语音识别技术的终端。图1是本申请一个实施例提出的语音识别方法的流程示意图。如图1所示,本实施例的方法包括:S11:对输入的语音进行声学特征提取,得到声学特征。其中,可以采用已有或将来出现的声学特征提取流程进行声学特征的提取。声学特征例如包括:梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等。S12:获取声学模型,其中,所述声学模型的参数是二值化参数。其中,可以在训练阶段生成声学模型,而在识别阶段,直接获取已训练生成的声学模型。通常的声学模型的参数是浮点数,因此,每个参数通常会占用16位或32位(bit)。本实施例中,声学模型的参数是二值化参数,二值化参数是指每个参数是已确定的两个值中的任一个。比如,已确定的两个值用+1和-1表示,则每个参数是+1或-1。由于声学模型的参数是二值化参数,因此,每个参数可以用一位(bit)表示。相对于每个参数占用16或32位的情况,可以显著降低声学模型的大小,从而降低所需的存储空间。S13:根据所述声学特征和所述声学模型进行语音识别。其中,声学模型可以表明语音与声学状态概率之间的关系,因此,在得到声学特征后,依据声学模型可以得到声学状态概率。可以理解的是,在语音识别时还可以包括其他流程,比如,在得到声学状态概念后还可以根据语言模型、发音词典等,转换为文本,从而完成最终的语音识别。本申请主要对声学模型的相关内容进行说明,语音识别的其余流程可以采用已有或将来出现的技术实现。本实施例中,通过采用参数是二值化参数的声学模型,可以显著减小声学模型的大小,降低所需存储空间,从而可以适用于嵌入式语音识别。下面将给出一个相对解决较全面问题的技术方案,但是,本申请不限于本实施例的方案,还可以将解决不同技术问题的技术特征单独组成技术方案,或者,将不同技术特征进行其他方式的任意多个的组合以得到新的技术方案。图2是本申请另一个实施例提出的语音识别方法的流程示意图。参见图2,本实施例的方法包括:S21:训练生成声学模型,其中,所述声学模型的参数是二值化参数,以及,在训练过程中包括计算误差,且误差的精度为浮点精度。在训练阶段可以收集大量的语音样本,对每个语音样本提取声学特征,之后再根据这些声学特征进行训练,生成声学模型。在训练声学模型时,可以采用多种方式,本实施例可以以DNN+HMM混合建模方式的训练生成声学模型。与普通本文档来自技高网...
语音识别方法和装置

【技术保护点】
一种语音识别方法,其特征在于,包括:对输入的语音进行声学特征提取,得到声学特征;获取声学模型,其中,所述声学模型的参数是二值化参数;根据所述声学特征和所述声学模型进行语音识别。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:对输入的语音进行声学特征提取,得到声学特征;获取声学模型,其中,所述声学模型的参数是二值化参数;根据所述声学特征和所述声学模型进行语音识别。2.根据权利要求1所述的方法,其特征在于,还包括:训练生成所述声学模型,其中,在训练过程中包括利用误差反传方法计算误差,且误差的精度为浮点精度。3.根据权利要求1所述的方法,其特征在于,所述根据所述声学特征和所述声学模型进行语音识别,包括:在所述声学模型包括DNN时,将所述声学特征作为所述DNN的输入层,且,在所述DNN的每个隐层,采用声学模型的参数与输入值进行运算得到输出值,以及,对存在下一个隐层的输出值进行二值化,以作为下一个隐层的输入值。4.根据权利要求3所述的方法,其特征在于,还包括:对输出值进行线性变换,以对变换后的输出值进行二值化。5.根据权利要求3所述的方法,其特征在于,所述采用声学模型的参数与输入值进行运算得到输出值,包括:根据声学模型的参数与输入值进行位操作,得到输出值。6.一种语音识别装置,其特...

【专利技术属性】
技术研发人员:丁科蒋兵李先刚
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1