语音识别方法和装置制造方法及图纸

技术编号:13200603 阅读:27 留言:0更新日期:2016-05-12 10:09
本发明专利技术提出一种语音识别方法和装置,其中,该语音识别方法,包括以下步骤:接收语音信号;根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声学模型是基于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单元,所述解码网络由所述基本发音单元构成的多个解码路径组成;将所述最优解码路径输出为所述语音信号的识别结果。本发明专利技术的语音识别方法,能够提高语音识别的准确性,并提高识别过程中的解码速度。

【技术实现步骤摘要】

本专利技术涉及语音识别
,特别涉及一种语音识别方法和装置
技术介绍
传统的语音识别技术,大多是基于状态建模的语音识别模型进行语音识别的。例如,基于隐马尔科夫模型(Hidden Markov Model;以下简称:HMM)进行语音识别。HMM可以看作一个数学上的双重随机过程:一个是用具有有限状态数的马尔科夫Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔科夫Markov链的每一个状态相关联的观测序列的随机过程。在这种建模方式中,一个音素或者一个音节被认为可分为多个没有物理意义的状态,然后采用离散或者连续高斯模型或深度学习模型描述每个状态的输出分布。但是,基于状态建模的方式,在语音识别的过程中,在对两个发音单元之间处进行识别时,容易出现混淆,识别性能较差。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题。为此,本专利技术的第一个目的在于提出一种语音识别方法,能够提高语音识别的准确性,并提高识别过程中的解码速度。本专利技术的第二个目的在于提出一种语音识别装置。为达上述目的,根据本专利技术第一方面实施例提出了一种语音识别方法,包括以下步骤:接收语音信号;根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声学模型是基于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单元,所述解码网络由所述基本发音单元构成的多个解码路径组成;将所述最优解码路径输出为所述语音信号的识别结果。本专利技术实施例的语音识别方法,基于连接时序分类构建的声学模型和解码网络对语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,并作为语音信号的识别结果,能够解决两个发音单元中间出现混淆的问题,提高语音识别的准确性,并能够有效减少可能的解码路径,提高识别过程中的解码速度。本专利技术第二方面实施例提出了一种语音识别装置,包括:接收模块,用于接收语音信号;解码模块,用于根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声学模型是基于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单元,所述解码网络由所述基本发音单元构成的多个解码路径组成;输出模块,用于将所述最优解码路径输出为所述语音信号的识别结果。本专利技术实施例的语音识别装置,基于连接时序分类构建的声学模型和解码网络对语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,并作为语音信号的识别结果,能够解决两个发音单元中间出现混淆的问题,提高语音识别的准确性,并能够有效减少可能的解码路径,提高识别过程中的解码速度。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。【附图说明】本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的语音识别方法的流程图;图2为根据本专利技术一个实施例中解码网络的示意图;图3为根据本专利技术另一个实施例的语音识别方法的流程图;图4a为根据本专利技术一个实施例的解码网络中的节点S的示意图;图4b为根据本专利技术一个实施例的对图4a中节点S添加blank节点后的拓扑图;图5为本专利技术一个实施例的语音识别方法中两个发音单元中间识别混淆的示意图;图6为根据本专利技术一个实施例的语音识别装置的结构示意图一;图7为根据本专利技术一个实施例的语音识别装置的结构示意图二;图8为根据本专利技术一个实施例的语音识别装置的结构示意图三;图9为根据本专利技术一个实施例的语音识别装置的结构示意图四。【具体实施方式】下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。下面参考附图描述根据本专利技术实施例的语音识别方法和装置。—种语音识别方法,包括以下步骤:接收语音信号;根据预先建立的声学模型、语言模型和解码网络对语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,声学模型是基于连接时序分类训练得到的,声学模型中包括基本发音单元和空白单元,解码网络由基本发音单元构成的多个解码路径组成;将最优解码路径输出为语音信号的识别结果。图1为根据本专利技术一个实施例的语音识别方法的流程图。如图1所示,根据本专利技术实施例的语音识别方法,包括以下步骤。SlOl,接收语音信号。S102,根据预先建立的声学模型、语言模型和解码网络对语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,声学模型是基于连接时序分类训练得到的,声学模型中包括基本发音单元和空白单元,解码网络由基本发音单元构成的多个解码路径组成。 在本专利技术的一个实施例中,预先建立的声学模型是基于(^(]((3011116(31:;[01118七temporal (:1&881;^0&1:;[011,连接时序分类)技术训练得到的。具体地,可对大量的语音信号进行特征提取,以得到各语音信号的特征向量。然后在特征向量中每隔预定数量的发音单元添加空白标签,并基于连接时序分类对添加所述空白标签后的语音信号进行训练,建立声学模型。其中,声学模型中包括多个基本发音单元和空白单元。语言模型可为现有的或者未来可能出现的任意语言模型本专利技术对此不做限定。声学模型中的多个基本发音单元及其之间的跳转关系(即跳转路径)可以形成大量的解码路径,这些解码路径即可构成解码网络。其中,基本发音单元可为完整的声母或韵母,可被称为音素。举例来说,图2为根据本专利技术一个实施例中解码网络的示意图。如图2所示,其中,虚线圆圈用于标识解码路径的开始,实线圆圈(如A和B)表示解码网络中的基本发音单元,箭头标识基本发音单元之间的跳转路径。由图2可知,解码网络中存在多个解码路径。每条解码路径为对语音信号进行解码时的一种可能解码结果。在本专利技术的实施例中,对语音信号进行解码的过程即为根据语音信号的特征向量帧从解码网络中的多个解码路径中选择最优解码路径的过程。在本专利技术的一个实施例中,如图3所示,S102可具体包括S201-S204:S201,根据解码网络中的跳转路径,对当前各解码路径进行扩展,并在扩展过程中动态添加空白单元,以得到添加空白单元后的至少一个扩展路径。对解码路径进行扩展的过程,即从解码网络中起始位置沿着各个基本发音单元之间的跳转路径向解码网络的结束位置一步步前进的过程。举例来说,如果已经完成语音信号到达特征向量帧i扩展,并得到了至少一个解码路径(可称为当前解码路径),假设特征向量帧i在其中一个当前解码路径中对应的基本发音单元为A,则可根据解码网络中基本发音单元A的各个跳转路径分别对当前解码路径进行进一步扩展以得到可能的扩展路径。其中本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括以下步骤:接收语音信号;根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声学模型是基于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单元,所述解码网络由所述基本发音单元构成的多个解码路径组成;将所述最优解码路径输出为所述语音信号的识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:钱胜潘复平
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1