一种语音识别解码的方法及装置制造方法及图纸

技术编号：13595787 阅读：29 留言：0更新日期：2016-08-26 12:55

本发明专利技术公开了一种语音识别解码的方法及装置，属于语音处理领域。该方法包括：接收语音信息，提取声学特征；根据连接时序分类模型计算该声学特征的信息；若所述声学特征信息中的帧为非空模型帧，则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史，否则丢弃该帧。本发明专利技术通过建立连续时序分类模型，使得声学建模更加精确；使用改进加权有限状态机，使得模型表示更为高效，减少计算和内存资源消耗近50％；在解码中使用音素同步的方法，有效减少了模型搜索的计算量和次数。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音处理领域，具体涉及语音识别解码的方法及装置。
技术介绍
语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。传统语音识别中将语言学信息(包括词的发音序列，词组合的出现概率等)全部分别转换成一种具有“输入”，“输出”，“路径权重”，“状态跳转”四种属性的结构，并将转换得到的所有语言学信息合成(composition)在一起，经过全局优化网络结构后，构成了一个整体的语音识别搜索网络，供解码过程在网络中进行搜索。其构建流程大致参见图(例子中的“/”后表示路径权重)：传统语音识别技术基于隐马尔科夫模型(hidden markov model)，逐帧同步解码(Frame Synchronous Decoding)和加权有限状态机(Weighted Finite State Transducer)方法进行构建，主要有以下缺点：隐马尔科夫模型的建模效果有缺陷；逐帧同步解码的计算量庞大且冗余；该框架下的加权有限状态机消耗大量计算和内存资源。
技术实现思路
为了解决上述问题，本专利技术实施例提供了一种语音识别解码的方法及装置。所述技术方案如下：第一方面，一种语音识别解码的方法，该方法包括：接收语音信息，提取声学特征；根据连接时序分类模型计算该声学特征的信息；其中，声学特征的信息主要包括由声波的声学信息逐帧提取的向量。声学信息存储结构为连接时序分类模型词图，该声学特征的信息存储结构基于加权有限状态机进行表示，将两个不同模型输出时刻之间，所有候选的声学输出模型进行两两相连。具体的，连接时序分类模型在输入每一帧声学特征后，会逐帧得...

【技术保护点】
一种语音识别解码方法，其特征在于，所述方法包括：接收语音信息，提取声学特征；根据连接时序分类模型计算所述声学特征的信息；若所述声学特征信息中的帧为非空模型帧，则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史，否则丢弃该帧。

【技术特征摘要】
1.一种语音识别解码方法，其特征在于，所述方法包括：接收语音信息，提取声学特征；根据连接时序分类模型计算所述声学特征的信息；若所述声学特征信息中的帧为非空模型帧，则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史，否则丢弃该帧。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：通过音素同步解码输出语音识别结果。3.根据权利要求1所述的方法，其特征在于，所述声学特征的信息主要包括由声波的声学信息逐帧提取的向量。4.根据权利要求1所述的方法，其特征在于，所述连接时序分类模型在输入每一帧声学特征后，会逐帧得出各音素的出现概率。5.根据权利要求1所述的方法，其特征在于，所述声学信息存储结构为连接时序分类模型词图，所述声学特征的信息存储结构基于所述加权有限状态机进行表示，将两个不同模型输出时刻之间，所有候选的声学输出模型进行两两相连。6.一种语音识别解码装置，其特征...

【专利技术属性】
技术研发人员：俞凯，周伟达，陈哲怀，邓威，徐涛，
申请(专利权)人：苏州思必驰信息科技有限公司，上海交通大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人