基于动态字典的语音语义识别方法技术

技术编号:12619866 阅读:109 留言:0更新日期:2015-12-30 17:18
本发明专利技术公开了一种基于动态字典的语音语义识别方法,涉及语音识别技术领域。所述方法包括如下步骤:1)根据特定使用场景设计预设定关键词列表;2)进行语音信号的预处理和特征参数提取;3)基于动态词典的小词汇量语音识别。所述方法可以显著提高使用场景中的关键词的识别速度和识别率。

【技术实现步骤摘要】

本专利技术涉及语音识别
,尤其涉及一种。
技术介绍
典型的语音识别架构基本如图1所示。特征提取模块:该模块的主要任务是从输入信号中提取特征,供声学模型处理,同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。声学模型:主要是针对语音单元,比如音节、因素进行统计建模,典型系统多采用基于一阶隐马尔科夫模型进行建模。文法词典:文法词典包含系统所能处理的词汇集及其发音。文法词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型:语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。语音解码模式匹配搜索:模式匹配搜索是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。对于前面的语音预处理、特征提取、声学模型训练匹配等环节,近年来并没有本质的突破,对于大词汇量非特定人的语音识别来说,尤其在语音模型方面还是以N元文法统计模型为主,需要训练大量的词库而且无法涵盖所有的使用场景,尤其在不常用的场景中,对于使用频次低的语音来说,识别率和语义理解成功都比较低。
技术实现思路
本专利技术所要解决的技术问题是提供一种,所述方法可以显著提高语音语意识别的速度和正确率。为解决上述技术问题,本专利技术所采取的技术方案是:一种,其特征在于所述方法包括如下步骤:I)根据特定使用场景设计预设定关键词列表;2)进行语音信号的预处理和特征参数提取;3)基于动态词典的小词汇量语音识别。进一步的技术方案在于:步骤I)具体为:I)针对每个特定使用场景提取常用的关键词列表file-Ι,保存为配置文件;2)在进入特定场景前,系统提前加载关键词列表file-Ι,生成动态字典Dic-1 ;3)系统指定语音识别引擎使用动态字典Dic-1和默认的大量词汇量字典default,并指定动态字典对应的识别门限p_l。进一步的技术方案在于:步骤2)具体为:I)语音降噪处理、端点检测音节切分;2)特征参数MFCC计算提取,得到特征矢量。进一步的技术方案在于:步骤3)具体为:I)基于步骤2)得到的特征参数、声学模型库以及动态字典进行模式匹配搜索,如果识别结果的对于概率P>P-1,则认为得到了匹配结果,则识别过程结束;否则,继续后续步骤;2)基于步骤2)得到的特征参数、声学模型库以及大词汇量字典进行模式匹配搜索,输出匹配概率最高的识别结果。采用上述技术方案所产生的有益效果在于:(I)本专利技术所述方法,能够利用具体使用场景需要的关键词数量较少的特点,进行第一级的小词汇量语音识别匹配,如果待识别语音包含了关键词,则会很快得到正确结果,排除多音字和相似发音字的干扰。(2)本专利技术所述方法,包含了第二级的大词汇量语音识别过程,这样待识别语音中如果不包含场景的目标关键词,则可以通过大词汇量模型库给出相应的识别结果,避免了出现大量的无识别结果的问题,保持了使用的灵活性。【附图说明】下面结合附图和【具体实施方式】对本专利技术作进一步详细的说明。图1是典型的语音识别架构图。【具体实施方式】下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施例的限制。实施例一:本专利技术公开了一种,所述方法包括如下步骤:1、动态字典生成1.1在基于语音识别点读有声读物的场景中,提取相应的读物的名字形成关键词列表,例如:14只老鼠大搬家\11只猫盖房子\克罗迪的危险旅程\机智的弗洛格\弗洛格找宝藏\……\国王与青蛙等关键词,保存到文本文件file-Ι中。在目前的通用语音识别系统中,这些名字都是低频词,在大词汇量的模型库里面基本上无法实现正确识别。1.2在进入点读场景之前,例如用户语音指令“我要读书”,则系统提前加载file-Ι,生成动态字典Dic-1。1.3系统指定语音识别引擎使用动态字典Dic-1和默认的大量词汇量字典default。并指定动态字典对应的识别门限0.5 ;2、语音信号的预处理和特征参数提取。2.1游戏开始后,系统主动提问“你需要读什么书”,然后等待用户语音回答,同时针对实时获得的语音降噪处理、端点检测音节切分。2.2特征参数MFCC计算提取,得到特征矢量序列Xi (i = 0,1,2...)3、基于动态词典的小词汇量语音识别3.1基于步骤2得到的特征参数X1、声学模型库以及动态字典进行模式匹配搜索,如果用户回答为“弗洛格找宝藏”,则在此过程中识别结果的对应概率P>0.5,则认为得到了匹配结果“弗洛格找宝藏”,则识别过程结束。否则,继续后续步骤。3.2如果用户回答“你随便读一个”或者“我也不知道”等不包含相关读物名字的回答,则基于步骤2得到的特征参数X1、声学模型库以及大词汇量字典进行模式匹配搜索,输出匹配概率最高的识别结果“你随便读一个”或者“我也不知道”,然后系统可以进行对应的反馈。类似以上步骤,在实际系统中,可以为每个特定的使用场景提供相关的关键词列表,就可以在保持任意词汇识别的灵活性的同时,显著提高预期关键词(尤其是低频词汇)的识别正确率,大大扩宽了语音识别的使用范围。同时大多数的情况下,只经过一次小词汇量模式匹配搜索就可以得到结果,运行速度也会显著提高。实施例二:本专利技术公开了一种,所述方法包括如下步骤:1、动态字典生成1.1在低龄儿童学习颜色的游戏场景中,提取常用的关键词列表,红\绿\蓝\黄\橙\青\紫\桔\天蓝\白等关键词,保存到文本文件file-Ι中。1.2在进入学习颜色的游戏前,系统提前加载file-Ι,生成动态字典Dic-1。1.3系统指定语音识别引擎使用动态字典Dic-1和默认的大量词汇量字典default。并指定动态字典对应的识别门限0.5 ;2、语音信号的预处理和特征参数提取。2.1游戏开始后,系统主动提问“苹果是什么颜色的? ”,然后等待用户语音回答,同时针对实时获得的语音降噪处理、端点检测音节切分。2.2特征参数MFCC计算提取,得到特征矢量序列Xi (i = 0,1,2...)3、基于动态词典的小词汇量语音识别 3.1基于步骤2得到的特征参数X1、声学模型库以及动态字典进行模式匹配搜索,如果用户回答为“红色”,则在此过程中识别结果的对应概率P>0.5,则认为得到了匹配结果“红色”,则识别过程结束。否则,继续后续步骤。3.2如果用户回答“我不知道”或者“我不告诉你”等不包含颜色信息的回答,则基于步骤2得到的特征参数X1、声学模型库以及大词汇量字典进行模式匹配搜索,输出匹配概率最高的识别结果“我不知道”或“我不告诉你”。类似以上步骤,在实际系统中,可以为每个特定的使用场景提供相关的关键词列表,就可以在保持任意词汇识别的灵活性本文档来自技高网...

【技术保护点】
一种基于动态字典的语音语义识别方法,其特征在于所述方法包括如下步骤:1)根据特定使用场景设计预设定关键词列表;2)进行语音信号的预处理和特征参数提取;3)基于动态词典的小词汇量语音识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:于拾全田学红卫亚东
申请(专利权)人:东莞市凡豆信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1