一种语音识别解码的方法及装置制造方法及图纸

技术编号:13595787 阅读:29 留言:0更新日期:2016-08-26 12:55
本发明专利技术公开了一种语音识别解码的方法及装置,属于语音处理领域。该方法包括:接收语音信息,提取声学特征;根据连接时序分类模型计算该声学特征的信息;若所述声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。本发明专利技术通过建立连续时序分类模型,使得声学建模更加精确;使用改进加权有限状态机,使得模型表示更为高效,减少计算和内存资源消耗近50%;在解码中使用音素同步的方法,有效减少了模型搜索的计算量和次数。

【技术实现步骤摘要】

本专利技术属于语音处理领域,具体涉及语音识别解码的方法及装置
技术介绍
语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。传统语音识别中将语言学信息(包括词的发音序列,词组合的出现概率等)全部分别转换成一种具有“输入”,“输出”,“路径权重”,“状态跳转”四种属性的结构,并将转换得到的所有语言学信息合成(composition)在一起,经过全局优化网络结构后,构成了一个整体的语音识别搜索网络,供解码过程在网络中进行搜索。其构建流程大致参见图(例子中的“/”后表示路径权重):传统语音识别技术基于隐马尔科夫模型(hidden markov model),逐帧同步解码(Frame Synchronous Decoding)和加权有限状态机(Weighted Finite State Transducer)方法进行构建,主要有以下缺点:隐马尔科夫模型的建模效果有缺陷;逐帧同步解码的计算量庞大且冗余;该框架下的加权有限状态机消耗大量计算和内存资源。
技术实现思路
为了解决上述问题,本专利技术实施例提供了一种语音识别解码的方法及装置。所述技术方案如下:第一方面,一种语音识别解码的方法,该方法包括:接收语音信息,提取声学特征;根据连接时序分类模型计算该声学特征的信息;其中,声学特征的信息主要包括由声波的声学信息逐帧提取的向量。声学信息存储结构为连接时序分类模型词图,该声学特征的信息存储结构基于加权有限状态机进行表示,将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。具体的,连接时序分类模型在输入每一帧声学特征后,会逐帧得出各音素的出现概率。若该声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。具体的,该方法还包括:通过音素同步解码输出语音识别结果。第二方面,一种语音识别解码的装置,该装置包括:特征提取模块,用于接收语音信息,提取声学特征;声学计算模块,用于根据连接时序分类模型计算该声学特征的信息;其中,声学特征的信息主要包括由声波的声学信息逐帧提取的向量。声学信息存储结构为连接时序分类模型词图,该声学特征的信息存储结构 基于加权有限状态机进行表示,将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。具体的,连接时序分类模型在输入每一帧声学特征后,会逐帧得出各音素的出现概率。解码搜索模块,若该声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。该装置还包括音素解码模块,通过音素同步解码输出语音识别结果。本专利技术通过建立连续时序分类模型,使得声学建模更加精确;使用改进加权有限状态机,使得模型表示更为高效,减少计算和内存资源消耗近50%;在解码中使用音素同步的方法,有效减少了模型搜索的计算量和次数。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术第一实施例提供的一种语音识别解码的方法流程图;图2是本专利技术实施例提供的适配声学建模信息的加权有限状态机的示意图;图3是本专利技术实施例提供的声学信息结构的示意图;图4是本专利技术第二实施例提供的一种音素同步解码的方法流程图;图5是本专利技术第二实施例提供的一种音素同步解码的方法流程图;图6是本专利技术实施例提供的一种语音识别解码的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。图1示出了本专利技术第一实施例提供的一种语音识别解码的方法流程,具体 包括:S101接收语音信息,提取声学特征;特征提取通过传统信号处理技术,将声波的声学信息逐帧提取成一个向量,供后端建模和解码作为输入特征使用。S102根据连接时序分类模型计算该声学特征的信息;其中,声学特征的信息主要包括由声波的声学信息逐帧提取的向量。声学信息存储结构为连接时序分类模型词图,该声学特征的信息存储结构基于加权有限状态机进行表示,将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。基于时序分类模型对音频的音素信息进行建模。具体方法是将收集标注好音频内容的训练数据,经过前处理和提取特征后,作为模型输入和输出进行时序分类模型的模型训练。在海量数据训练下,得到最终的连接时序分类模型供模型搜索使用。训练得到的模型在输入每一帧声学特征后,会给出所有建模单元可能出现的概率,其中建模单元为音素。具体的,连接时序分类模型在输入每一帧声学特征后,会逐帧得出音素的出现概率。S103若声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。加权有限状态机是一种用于表示语音识别搜索网络的结构。针对使用连接时序分类模型的语音识别系统设计了相应的适配声学建模信息的加权有限状态机模型,该模型强调了高效,节省内存及计算资源,其结构如图2所示,其中“<blk>”表示连接时序分类模型中的空白模型,“<eps>”表示空标识,“#1”用于适配“表示词发音序列的加权有限状态机”中的多发音词,“a”表示连接时序分类模型中的一个示例模型,“...”表示连接时序分类模型中的其他模型。该结构相比目前存在的其他同类结构,算法的计算和内存资源消耗减少50%左右,且语言学信息完全等效。具体的,该方法还包括:通过音素同步解码输出语音识别结果。本实施例提出了连接时序分类模型词图,一种高效的声学信息储存结构,用于作为上面提出的音素同步解码的载体。这种声学信息结构基于加权有限状态机进行表示,方法是将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。图3示出这种结构的构建示例,对应于该结构的示例声学信息见表1:Time Phone:score 0.4s <blk>:0.2a2:0.5a4:0.2 0.9s <blk>:0.3a1:0.6 1.5s a5:0.3ai1:0.2ai3:0.2 表1 声学信息结构的示例声学信息本专利技术实施例通过建立连续时序分类模型,使得声学建模更加精确;使用改进加权有限状态机,使得模型表示更为高效,减少计算和内存资源消耗近50%;在解码中使用音素同步的方法,有效减少了模型搜索的计算量和次数。连接时序分类模型的概率输出分布具有单峰突出的特点,一句话对应各帧的一组概率输出,一般纵轴为概率值,横轴为时间轴,不同颜色的峰值代表不同模型的输出。基于该现象,本实施例提出了一种新颖的音素同步解码方法,以取代传统的逐帧同步解码。音素同步解码方法只在出现非空白模型输出时才进行语言学网络搜索,否则直接丢弃当前帧声学信息,转到下一帧。其算法流程如图4所示。图4示出本专利技术第二实施例提供的一种音素同步解码的方法流程,详述如下:S401算法初始化;S402判断语音是否结束,若结束,则回溯并输出解码结果,否则进入步骤S403;S403声学特征提取;S404利用连接时序分类模型计算声学信息;S405判断声学信息中每帧是否为空白模本文档来自技高网...

【技术保护点】
一种语音识别解码方法,其特征在于,所述方法包括:接收语音信息,提取声学特征;根据连接时序分类模型计算所述声学特征的信息;若所述声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。

【技术特征摘要】
1.一种语音识别解码方法,其特征在于,所述方法包括:接收语音信息,提取声学特征;根据连接时序分类模型计算所述声学特征的信息;若所述声学特征信息中的帧为非空模型帧,则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史,否则丢弃该帧。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过音素同步解码输出语音识别结果。3.根据权利要求1所述的方法,其特征在于,所述声学特征的信息主要包括由声波的声学信息逐帧提取的向量。4.根据权利要求1所述的方法,其特征在于,所述连接时序分类模型在输入每一帧声学特征后,会逐帧得出各音素的出现概率。5.根据权利要求1所述的方法,其特征在于,所述声学信息存储结构为连接时序分类模型词图,所述声学特征的信息存储结构基于所述加权有限状态机进行表示,将两个不同模型输出时刻之间,所有候选的声学输出模型进行两两相连。6.一种语音识别解码装置,其特征...

【专利技术属性】
技术研发人员:俞凯周伟达陈哲怀邓威徐涛
申请(专利权)人:苏州思必驰信息科技有限公司上海交通大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1