当前位置: 首页 > 专利查询>清华大学专利>正文

嵌入式平台大词汇量语音命令词的识别方法技术

技术编号:4269907 阅读:257 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了语音识别技术领域中的一种嵌入式平台大词汇量语音命令词的识别方法。包括下列步骤:语音信号的预处理和语音识别参数的提取、建立语音声学模型并进行语音模型训练、构建树形识别网络、应用快速识别搜索算法;其中,语音声学模型,采用基于声母右相关的词内双音子模型;构建树形识别网络具体是,构建基于相同父音节的树形识别网络,合并有相同父音节的结点;快速识别搜索算法,根据所述基于相同父音节的树形识别网络,采用动态调整窗宽的状态级剪枝策略以及帧同步词级剪枝策略。本发明专利技术对传统的嵌入式语音识别方法进行了改进,实现了内存和CPU资源的高效利用,提高了大词汇量语音命令词识别的速度。

【技术实现步骤摘要】

本专利技术属于语音识别
,尤其涉及一种。
技术介绍
语音识别技术是指使用机器从一段语音信号中识别出语音的具体内容,广泛地应 用于各种人机交互系统。随着语音技术,特别是语音识别技术的飞速发展,语音识别的应用 已经越来越普遍,尤其是一些简单的命令词识别系统更是因为其识别率高,性能稳定,人机 交互便捷等有利条件而获得了越来越大的应用和市场前景。比如声控服务机器人、语音识 别玩具、电话转接系统、简易旅游服务导航系统等。 近些年,国外一些语音技术和半导体公司都投入大量人力和物力开发语音识别专用芯片,并对自己的语音识别算法进行专利保护。这些专用芯片的语音识别算法过程通常如图1所示,输入的语音信号首先经过A/D进行采样,频谱整形加窗预加重处理,提高高频成分,进行实时特征参数提取,提取的参数为Mel频标倒谱系数(MFCC, Mel FrequencyC印strum Coefficient),同时进行语音识别模型训练和语音识别模板匹配。 传统的基于PC计算机上大词汇量语音命令词识别系统如图2所示,采用完全树状解码网络,该网络结构复杂,虽然可以减少剪枝路径数量,但是网络结构的实现上需要大量的链表和指针,造成存储量空间迅速增长;当识别任务是中小词表语音识别系统时,一般都采用并行的解码网络结构,如图3所示。这种识别网络实现容易,比较适合中小词表的嵌入式识别系统。在解码识别策略方面, 一般采用一阶段的最优维特比束搜索剪枝方法。 然而,由于嵌入式系统存储器资源和CPU计算资源都很有限,这种传统的方法不适应于嵌入式平台上语音命令词识别的实现,当识别任务到达万级词汇量甚至几十万时,上述介绍的传统语音网络建模和剪枝方法根本无法承受庞大的词表所带来的存储和计算资源的负担。
技术实现思路
针对上述
技术介绍
中提出的使用传统语音命令词识别的方法,不适于嵌入式平台的问题,本专利技术提出了一种。 本专利技术的技术方案是,一种,包括步骤语音信号的预处理和语音识别参数的提取、建立语音声学模型并进行语音模型训练、构建树形识别网络、应用快速识别搜索算法,其特征在于,所述语音声学模型,采用基于声母右相关的词内双音子模型; 所述构建树形识别网络具体是,构建基于相同父音节的树形识别网络,合并有相 同父音节的结点; 所述快速识别搜索算法,根据所述基于相同父音节的树形识别网络,采用动态调 整窗宽的状态级剪枝策略以及帧同步词级剪枝策略。3 所述动态调整窗宽的状态级剪枝策略采用公式Br = max(-n ^+B磁,BMIN}调整 窗宽;其中,其中n是帧序号,fa是窗宽调整因子,B皿,B,和Bf分别代表窗宽的上限、下限 以及实际所用的窗宽。 所述帧同步词级剪枝策略采用公式Wr = max(-fi (n-N》+Wi, WMIN} , i = 1,2, 3,...控制词级剪枝速度,其中n是帧序号,WMIN和Wr分别是词级剪枝的下界和实际剪枝后 的候选词条数量,K是剪枝速度发生改变的帧序号,&是词级剪枝的速度因子。 本专利技术的有益效果是,通过改进传统的嵌入式语音识别方法,到达内存和CPU资 源的高效利用的目的;在保证高识别率的基础上,既减少了识别系统所需要的存储空间,又 大幅的縮减了 CPU的计算资源需求,提高了大词汇量语音命令词识别的速度。附图说明 图1是常用的语音识别的过程示意图; 图2是PC计算机上采用的完全树状的解码网络示意图; 图3是传统的嵌入式平台并行解码网络示意图; 图4是本专利技术中使用的基于相同父音节的树形结构识别网络示意图; 图5是本专利技术中使用的帧同步词级剪枝策略的示意图。具体实施例方式下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性 的,而不是为了限制本专利技术的范围及其应用。 本专利技术中,语音信号的预处理和语音识别参数的提取采用现有技术。语音信息预 处理主要是进行A/D转换和增益放大,同时进行频谱整形及分帧加窗处理,保证分帧语音 的准平稳性。识别参数的提取主要是对分帧语音的特征进行提取。提取的语音特征包括 MFCC倒谱系数、能量以及它们的一阶衍生特征。 对语音声学模型进行分析,构建基于声母右相关的词内双音子模型,即Biphone 模型。传统的Triphone模型源自西方语言的语音声学模型分析,虽然也适合汉语,但是该 模型规模太大,不适于嵌入式系统。本专利技术在深入分析了汉语发音规则后,建立了的基于声 母右相关的词内双音子模型。 汉语的发音规则是绝大多数汉语文字的发音都是单音节,即一个汉字的发音由 一个声母加上一个韵母或韵母组合组成,或者是一个韵母单独构成。例如,清华的清 由一个声母q加上一个韵母ing组成。英雄的雄由一个声母x加上一个韵母 组合i和ong组成。欧由一个韵母ou组成。根据汉语的这一发音规则,构建基于 声母右相关的词内双音子模型,该模型只考虑汉字的声母右边所连的音的影响,不再考虑 声母左边所连接的音的影响。比如,在清华,q+ing+h+ua中,建h的双音子模型时, 只考虑ua对h的影B向,而不考虑ing对h的影响;建q时只考虑ing对q 的影响,而不考虑q前面的音对它的影响。由于Biphone模型只考虑声母右边所连的音 的影响,因此该模型的规模要远远小于传统的Triphone模型。 对建立的Biphone模型进行大词汇量训练。训练的方法与传统的Triphone模型 训练方法一样。这样,原嵌入式平台的识别算法如果使用Triphone模型的话,也可以兼容Biphone模型。 构建树形识别网络。传统的嵌入式平台一般采用实现简单的并行解码网络,如图 3所示。该网络存在着相同音节重复存储和重复匹配方面的浪费,但是在词表只有几百或 者几千时,这种重复的现象发生几率较低,所以资源的浪费并不显著。由于在汉语中,多音 字现象是相当普遍的,汉语一共有418个无调音节,所以当词表变大,达到上万甚至几十万 时,词条间大部分音节都是重复的,这既存在着重复存储方面的浪费,还存在着在识别解码 中音节重复匹配带来的计算资源的浪费。 计算机上通常使用连续语音识别的完全树状解码网络,如图2所示。这种网络可 以在很大程度上避免音节重复匹配带来的计算资源浪费。但是由于这种复杂的解码网络在 具体实现方面需要大量的链表和指针,所以存储量方面的降低不是很显著,不太适合存储 资源同样有限的嵌入式系统。 基于以上的考虑,为了到达计算时间和存储空间的双赢,本专利技术构建一种基于相同父音节的树状识别网络,其构建方法是将有相同父音节结点的部分进行合并。图4是基于相同父音节的树状识别网络示意图。图4中,上海交通大学和上海邮管所中,交与邮的相同父音节是上海(shanghai);上海交通大学和上海交管所中,通与管的相同父音节是上海交(shang hai jiao)。将有相同父音节结点的部分进行合并,就是将上海交通大学和上海邮管所中,交与邮的相同父音节上海(shang hai)合并,以及将上海交通大学和上海交管所中的上海交(shang hai jiao)合并。这种网络的实现不需要大量的链表或者指针,而只需要一张简单的索引表便可以实现。这样既克服了大量音节结点重复匹配造成的计算时间的浪费,又节省了存储空间。 在构建识别网络后,改进快速识别搜索算法。根据上述基于本文档来自技高网
...

【技术保护点】
一种嵌入式平台大词汇量语音命令词的识别方法,包括步骤:语音信号的预处理和语音识别参数的提取、建立语音声学模型并进行语音模型训练、构建树形识别网络、应用快速识别搜索算法,其特征在于,所述语音声学模型,采用基于声母右相关的词内双音子模型;所述构建树形识别网络具体是,构建基于相同父音节的树形识别网络,合并有相同父音节的结点;所述快速识别搜索算法,根据所述基于相同父音节的树形识别网络,采用动态调整窗宽的状态级剪枝策略以及帧同步词级剪枝策略。

【技术特征摘要】
一种嵌入式平台大词汇量语音命令词的识别方法,包括步骤语音信号的预处理和语音识别参数的提取、建立语音声学模型并进行语音模型训练、构建树形识别网络、应用快速识别搜索算法,其特征在于,所述语音声学模型,采用基于声母右相关的词内双音子模型;所述构建树形识别网络具体是,构建基于相同父音节的树形识别网络,合并有相同父音节的结点;所述快速识别搜索算法,根据所述基于相同父音节的树形识别网络,采用动态调整窗宽的状态级剪枝策略以及帧同步词级剪枝策略。2. 根据权利要求1所述的一种嵌入式平台大词汇量语音命令词的识别方法,其特征在 于,所述动态调整窗宽的状态级剪枝策略...

【专利技术属性】
技术研发人员:刘加钱彦旻
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利