语音识别方法、装置及电子设备制造方法及图纸

技术编号:10652427 阅读:154 留言:0更新日期:2014-11-19 14:58
本发明专利技术公开了一种语音识别方法、装置及电子设备,属于音视频处理领域。所述方法包括:从获取到的语音信号中提取音频特征;根据所述音频特征识别出音节混淆网络;根据所述音节混淆网络和预设的标音词表生成词语网格;在所述词语网格中计算最优文字序列作为识别结果。本发明专利技术通过以音节而非词语作为基本识别单位,并根据音节混淆网络和词语网格来识别出最优文字序列,解决了现有语音识别方法在词表发生变化时,需要重新构造解码搜索空间,整个技术方案的灵活性较低的问题;达到了即便词表发生变化,但是作为基本识别单位的音节并不会发生改变,无需重新构造解码搜索空间的效果。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种语音识别方法、装置及电子设备,属于音视频处理领域。所述方法包括:从获取到的语音信号中提取音频特征;根据所述音频特征识别出音节混淆网络;根据所述音节混淆网络和预设的标音词表生成词语网格;在所述词语网格中计算最优文字序列作为识别结果。本专利技术通过以音节而非词语作为基本识别单位,并根据音节混淆网络和词语网格来识别出最优文字序列,解决了现有语音识别方法在词表发生变化时,需要重新构造解码搜索空间,整个技术方案的灵活性较低的问题;达到了即便词表发生变化,但是作为基本识别单位的音节并不会发生改变,无需重新构造解码搜索空间的效果。【专利说明】语音识别方法、装置及电子设备
本专利技术涉及音视频处理领域,特别涉及一种语音识别方法、装置及电子设备。
技术介绍
语音识别是将语音信号识别为对应的文字序列的一种技术,广泛应用于人机交 互、首视频检索等等领域。 现有的语音识别方法大多以词语或者句子作为基本识别单位,大概包括如下步 骤:第一,首先提取语音信号中的音频特征;第二,通过维特比解码计算该音频特征在预设 的解码搜索网络中的最优文字序列,并将该最优文字序列作为识别结果。具体来讲,该预设 的解码搜索网络中通常包括声学模型、词典和语言模型,声学模型通常为基于单音素或者 三音素的隐马尔可夫模型,词典包括词语与音素之间的对应关系,语言模型则包括词语与 词语之间组合成文字序列时的概率关系。在音频特征输入解码搜索网络后,通过声学模型 可以识别出与该音频特征对应的音素序列,通过该音素序列又可以在词典中查询出若干个 候选词语,最后通过语言模型中的概率关系选择出具有最大概率的几个候选词语所构成的 顺序组合作为最优文本序列。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:由于上述解码 搜索网络是由词语直接参与构造的,一旦词表(也即所有可识别词语的集合)发生变化,就 需要重新构造解码搜索空间,整个技术方案的灵活性较低。
技术实现思路
为了解决现有语音识别方法在词表发生变化时,需要重新构造解码搜索空间,整 个技术方案的灵活性较低的问题,本专利技术实施例提供了一种语音识别方法、装置及电子设 备。所述技术方案如下: 第一方面,提供了一种语音识别方法,所述方法包括: 从获取到的语音信号中提取音频特征; 根据所述音频特征识别出音节混淆网络; 根据所述音节混淆网络和预设的标音词表生成词语网格; 在所述词语网格中计算最优文字序列作为识别结果。 第二方面,提供了一种语音识别装置,所述装置包括: 特征提取模块,用于从获取到的语音信号中提取音频特征; 音节识别模块,用于根据所述音频特征识别出音节混淆网络; 网格生成模块,用于根据所述音节混淆网络和预设的标音词表生成词语网格; 文字识别模块,用于在所述词语网格中计算最优文字序列作为识别结果。 第三方面,提供了一种电子设备,所述终端包括如第二方面所述的语音识别装置。 本专利技术实施例提供的技术方案带来的有益效果是: 通过以音节而非词语作为基本识别单位,并根据音节混淆网络和词语网格来识别 出最优文字序列,解决了现有语音识别方法在词表发生变化时,需要重新构造解码搜索空 间,整个技术方案的灵活性较低的问题;达到了即便词表发生变化,但是作为基本识别单位 的音节并不会发生改变,无需重新构造解码搜索空间的效果。 【专利附图】【附图说明】 为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。 图1是本专利技术实施例一提供的语音识别方法的方法流程图; 图2A是本专利技术实施例二提供的语音识别方法的方法流程图; 图2B是本专利技术实施例二所涉及的音节混淆网络的结构示意图; 图2C是本专利技术实施例二所涉及的生成词语网格过程的方法流程图; 图2D是本专利技术实施例二所涉及的词语网格的结构示意图; 图2E是本专利技术实施例二所涉及的在词语网格中计算最优文字序列过程的方法流 程图; 图3是本专利技术实施例三提供的语音识别装置的结构示意图; 图4是本专利技术实施例四提供的语音识别装置的结构示意图。 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方 式作进一步地详细描述。 本专利技术实施例涉及的若干术语如下: 音素:根据语音的自然属性划分出的最小语音单位,比如在汉语中,声母y、l、k之 类的均为一个音素,韵母i、〇、e之类的也均为一个音素。在汉语中,拥有35个音素。 音节:由一个或者几个音素按照一定规则组合成的语音单位,汉语音节以韵母为 中心,由声母、韵母和声调三部分组成;英语音节则以元音音素为中心,配合一个或多个辅 音音素组成。汉语通常包括22个声母与38个韵母,400多个无调音节和1300个左右的有 调音节。比如,"yu"、"xiao"等即为无调音节。 音节混淆网络:由一组有序的节点组成的网络结构,只有两个相邻的节点之间存 在边(也称"弧"),且两个相邻节点之间存在一条或者多条边。其中,两个节点之间的部分可 以称之为一个切片,每个切片包含一组音节,一组音节包括至少一个音节,每个音节与该两 个节点之间的一条边对应,同时每个音节还对应有一个得分。 标音词表:对词表中的每个字或者词语给出其对应的发音音节序列和音素序列。 语言模型:描述词语之间统计特性的数学模型,通常包括词语与词语之间组合成 文字序列时的概率关系。 令牌:用于控制网格遍历状态的特殊数据结构,可以记录遍历过程中走过的路径。 实施例一 请参考图1,其示出了本专利技术实施例一提供的语音识别方法的方法流程图。该语音 识别方法可以用于电子设备中,该电子设备可以是智能手机、智能电视、平板电脑或者电子 书阅读器之类的终端;该电子设备也可以是服务器,该服务器属于提供语音识别功能的电 子系统,该电子系统不仅包括服务器,还包括至少一个位于前端的终端,终端与服务器之间 通过有线或者无线网络相连。该语音识别方法,包括: 步骤102,从获取到的语音信号中提取音频特征; 音频特征可以采用PLP (Perceptual Linear Predictive,感知线性预测)特 征、LPCC (Linear Prediction Cepstrum Coefficient,线性预测倒谱系数)与 MFCC (MelFrequency Cepstrum Coefficient,美尔频率倒谱系数)中的任意一种。 步骤104,根据音频特征识别出音节混淆网络; 步骤106,根据音节混淆网络和预设的标音词表生成词语网格; 步骤108,在词语网格中计算最优文字序列作为识别结果。 综上所述,本实施例的语音识别方法,通过以音节而非词语作为基本识别单位,并 根据音节混淆网络和词语网格来识别出最优文字序列,解决了现有语音识别方法在词表发 生变化时,需要重新构造解码搜索空间,整个技术方案的灵活性较低的问题;达到了即便词 表发本文档来自技高网
...

【技术保护点】
一种语音识别方法,其特征在于,所述方法包括:从获取到的语音信号中提取音频特征;根据所述音频特征识别出音节混淆网络;根据所述音节混淆网络和预设的标音词表生成词语网格;在所述词语网格中计算最优文字序列作为识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:李露卢鲤张翔饶丰岳帅陈波马建雄刘海波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1