当前位置: 首页 > 专利查询>平顶山学院专利>正文

嵌入式系统的汉英双语语音识别方法技术方案

技术编号:17009784 阅读:18 留言:0更新日期:2018-01-11 06:02
本发明专利技术属于语音识别技术领域,尤其涉及一种嵌入式系统的汉英双语语音识别方法。包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别;其中声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;语音命令的匹配识别具体是汉英双语语音命令的识别。本发明专利技术克服了现有语音识别系统只能识别单语言的缺陷。

【技术实现步骤摘要】
嵌入式系统的汉英双语语音识别方法
本专利技术属于语音识别
,尤其涉及一种嵌入式系统的汉英双语语音识别方法。
技术介绍
近年来,国外语音识别专用芯片发展很快。国外一些语音技术和半导体公司都投入大量人力和物力开发语音识别专用芯片,并对自己国家语言的语音识别算法进行专利保护。这些专用(系统)芯片的语音识别性能也各不相同。通常的语音识别的过程如图1所示,输入的语音信号首先经过A/D进行采样,频谱整形加窗预加重处理,提高高频成分,进行实时特征参数提取,提取的参数为Mel频标倒谱系数(MFCC),同时进行语音识别模板训练和语音识别模板匹配,为了提高噪声环境下的芯片识别性能鲁棒性,还会进行语音增强的处理。专用芯片一般包括8位或16位MCU控制器或16位DSP微处理器及与其相连的自动增益控制(AGC)、音频前置放大器、低通滤波器、数/模(A/D)转换器、模/数(D/A)转换器、音频功率放大器、只读存储器(ROM)。这些语音识别专用(系统)芯片已经开始被应用于在智能语音玩具、移动通信终端上。但是现有的中等词表的高性能语音识别专用芯片只能识别单语种语言,也就是说识别任务只能由汉语或者英语或者日语等单一语种的语言命令构成,并不支持两种语言(比如汉英双语混合)命令的识别。然而,随着国际化趋势的不断深入,无论是经济、政治,还是文化、学术,人们在日常生活中所出现的双语现象已经越来越普遍,比如中英双名等。因而,仅仅构建基于中文或者英文等单语言的语音识别系统越来越不能顺应时代发展的要求。特别是作为世界上使用人数最多以及使用最广泛的中文和英文,构建一个能够进行中英文混合识别的系统,并将他在专用芯片系统等便携设备上实现,显得非常重要。
技术实现思路
本专利技术的目的是,为克服已有芯片系统只能识别单语言的不足,提出一种嵌入式系统的汉英双语语音识别方法。该方法是基于音素融合建模的汉英双语嵌入式语音识别、嵌入式语音增强方法。技术方案是,一种嵌入式系统的汉英双语语音识别方法,包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别,其特征是所述声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;所述语音命令的匹配识别具体是汉英双语语音命令的识别;其中,所述确立汉英双语语音识别初始模型包括修订汉语语音识别模型、修订英语语音识别模型、合并修订后的汉语语音识别模型和英语语音识别模型以及训练合并后的汉语语音和英语语音识别模型;所述汉英双语语音识别初始模型的非母语模型融合调整采用可选择的模型归并方法对母语模型和非母语模型进行融合,并对融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练,得到汉英双语语音识别模型;所述汉英双语语音命令的识别通过提取输入的语音信号的识别特征,计算汉英双语语音识别模型的高斯分数,根据汉英双语词条进行模板匹配,将匹配分数最大的词条作为识别结果。所述方法还包括语音增强步骤。所述合并修订后的汉语语音识别模型和英语语音识别模型具体是,采用基于状态时间对准的模型距离计算方法,计算汉语和英语两两音素之间的距离,然后将距离最小的一对音素进行合并。所述训练合并后的汉语语音和英语语音识别模型,采用最大似然估计准则和期望最大化的估值迭代算法,得到汉英双语语音识别初始模型。所述训练合并后的汉语语音和英语语音识别模型在PC机上完成。所述采用可选择的模型归并方法对母语模型和非母语模型进行融合,包括下列步骤:(11)通过纯母语的数据库训练得到一个母语模型M1;(12)用少量的非母语数据库对模型M1使用最大似然线性回归方法进行自适应,得到模型M2;(13)通过可选择的模型归并策略,将汉英双语语音识别初始模型中的对应某个母语音素λi的模型Sb,与模型M1中的音素λi的对应母语模型Sne和模型M2中λi对应的自适应模型Sa,以及根据非母语易混淆音素变化方法得到的发音字典中对应音素λi的易混淆音素γj的自适应模型γm进行线性的插值融合,得到融合后的音素λi的调整模型Sf;模型插值公式如下:p(Sf)=λ1p(Sb)+λ2p(Sne)+λ3p(Sa)+λ4p(γm)其中λ1、λ2、λ3和λ4分别表示对应模型的插值因子。所述融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练包括:使用语音识别器来得到训练语音的词格信息;通过语音训练库的原始词级标注信息来训练得到汉语和英语的语言模型;在得到的词格信息上做前后项算法来更新模型参数。所述语音增强步骤采用改进的维纳滤波算法,包括下列步骤:(21)使用一段典型的背景噪声作为噪声估计的初始值;(22)利用滑动滤波器和三态状态机进行鲁棒的噪声检测,对于不同输入信噪比的含噪语音信号,将滤波器的输出与预先设定的阈值进行比较,根据判定条件决定当前帧信号是否处于背景噪声;如果是,则执行步骤(23);(23)采用Decision-Directed算法进行当前帧先验信噪比的估计,并利用历史帧信息进行噪声信号的更新;(24)采用两级帧间平滑处理,提高增强语音信号频谱的连续性,减小语音信号的失真。所述当前帧先验信噪比的估计,由前一帧先验信噪比与当前帧后验信噪比的估计γk(n)加权得到,计算公式为:其中,为当前帧先验信噪比的估计;p为反馈因子,用于控制上一帧与当前帧对当前帧先验信噪比估计的贡献;a为控制收敛因子。本专利技术提供的方法克服了已有芯片系统只能识别单语言的不足,具有算法复杂度低,识别精度高和噪声环境下识别稳健性能好的特点。附图说明图1是目前常用的语音识别示意图;图2是中国人说英语时的混淆音素变化表;图3是基于状态时间对准的音素合并方法得到的时间分段信息示意图。具体实施方式下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本专利技术的范围及其应用。图2是本专利技术提供的汉英双语语音识别方法过程示意图。图2中,本专利技术提供的嵌入式系统的汉英双语语音识别方法,包括如下步骤:A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,确立汉英双语语音识别初始模型,汉英双语语音识别初始模型的非母语模型融合调整和汉英双语语音命令的识别。其中,A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取是已有的技术,确立汉英双语语音识别初始模型,汉英双语语音识别初始模型的非母语模型融合调整和汉英双语语音命令的识别是本专利技术提出的新技术。确立汉英双语语音识别初始模型包括修订汉语语音识别模型、修订英语语音识别模型、合并修订后的汉语语音识别模型和英语语音识别模型以及训练合并后的汉语语音和英语语音识别模型。修订汉语语音识别模型和英语语音识别模型,首先根据中国人说英文或者外国人说中文所产生的发音差异修整发音字典(即汉语和英语语音识别模型)。主要有基于专家知识和基于数据驱动两种方法。在本专利技术中,同时结合两种策略,这样既能在专家知识指导下得到通用性强,依赖非母语语音数据量小的发音变化规律,又能兼有数据驱动。从而实现与实际数据匹配性好,人工干预少,可推广的优点。在使用数据驱动的方法时,将结合训练数据的原始音素标注和识别器的识别标注得到易混淆的音本文档来自技高网
...
嵌入式系统的汉英双语语音识别方法

【技术保护点】
一种嵌入式系统的汉英双语语音识别方法,包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别,其特征是所述声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;所述语音命令的匹配识别具体是汉英双语语音命令的识别;其中,所述确立汉英双语语音识别初始模型包括修订汉语语音识别模型、修订英语语音识别模型、合并修订后的汉语语音识别模型和英语语音识别模型以及训练合并后的汉语语音和英语语音识别模型;所述汉英双语语音识别初始模型的非母语模型融合调整采用可选择的模型归并方法对母语模型和非母语模型进行融合,并对融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练,得到汉英双语语音识别模型;其中,采用可选择的模型归并方法对母语模型和非母语模型进行融合,包括下列步骤:(11)通过纯母语的数据库训练得到一个母语模型M1;(12)用少量的非母语数据库对模型M1使用最大似然线性回归方法进行自适应,得到模型M2;(13)通过可选择的模型归并策略,将汉英双语语音识别初始模型中的对应某个母语音素λi的模型Sb,与模型M1中的音素λi的对应母语模型Sne和模型M2中λi对应的自适应模型Sa,以及根据非母语易混淆音素变化方法得到的发音字典中对应音素λi的易混淆音素γj的自适应模型γm进行线性的插值融合,得到融合后的音素λi的调整模型Sf;插值公式如下:p(Sf)=λ1p(Sb)+λ2p(Sne)+λ3p(Sa)+λ4p(γm)其中λ1、λ2、λ3和λ4分别表示对应模型的插值因子;所述汉英双语语音命令的识别通过提取输入的语音信号的识别特征,计算汉英双语语音识别模型的高斯分数,根据汉英双语词条进行模板匹配,将匹配分数最大的词条作为识别结果。...

【技术特征摘要】
1.一种嵌入式系统的汉英双语语音识别方法,包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别,其特征是所述声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;所述语音命令的匹配识别具体是汉英双语语音命令的识别;其中,所述确立汉英双语语音识别初始模型包括修订汉语语音识别模型、修订英语语音识别模型、合并修订后的汉语语音识别模型和英语语音识别模型以及训练合并后的汉语语音和英语语音识别模型;所述汉英双语语音识别初始模型的非母语模型融合调整采用可选择的模型归并方法对母语模型和非母语模型进行融合,并对融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练,得到汉英双语语音识别模型;其中,采用可选择的模型归并方法对母语模型和非母语模型进行融合,包括下列步骤:(11)通过纯母语的数据库训练得到一个母语模型M1;(12)用少量的非母语数据库对模型M1使用最大似然线性回归方法进行自适应,得到模型M2;(13)通过可选择的模型归并策略,将汉英双语语音识别初始模型中的对应某个母语音素λi的模型Sb,与模型M1中的音素λi的对应母语模型Sne和模型M2中λi对应的自适应模型Sa,以及根据非母语易混淆音素变化方法得到的发音字典中对应音素λi的易混淆音素γj的自适应模型γm进行线性的插值融合,得到融合后的音素λi的调整模型Sf;插值公式如下:p(...

【专利技术属性】
技术研发人员:李彩霞
申请(专利权)人:平顶山学院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1