一种语音辨识定点化处理方法技术

技术编号:3044605 阅读:193 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种语音辨识定点化处理方法,本发明专利技术所提供的语音辨识定点化处理方法包括以下步骤:11)提供语音讯号;12)利用整数算法求取语音讯号的倒频谱系数;13)建立语音讯号的长整数型态的声学模型;14)利用倒频谱系数与声学模型进行维特比算法,得到辨识比对值。本发明专利技术提供了一种减少硬件资源使用量的语音辨识定点化处理方法。

【技术实现步骤摘要】

本专利技术涉及,尤其是关于以整数算法来实 现语音辨识定点化处理的方法。技术背景随着科技的进步,各式各项的电子产品推陈出新,然而对于多数不熟悉 电子产品的使用者而言,使用接口仍是使用电子产品的最大障碍。不友善的 使用界面不仅让使用者感到挫折,甚至让有些使用者对使用电子产品觉得反 感与恐惧。因此,「口语对话」这种最方便、自然、不需要特别学习就能使 用的沟通媒介,长久以来就被高度地期待。随着行动通讯的发展,这样的需 求也愈来愈迫切。在可预见的未来,手持的行动装置将不仅是人们沟通的工 具,更将会是人们获取信息的重要工具。而手持设备走向轻、薄、短、小的 趋势,使得语音对话技术在下一代行动通讯系统中变得不可或缺,在硬件技术的进步,语音辨识已能应用于手机、PDA、玩具等小型装置上,但仅能做 到简单的拨号或命令控制功能,还未能够支持自然的口语对话功能。而此些 小型装置的体积越做越小功能却越做越强,几乎各种多媒体应用都被希望能 放入这些产品中,使得此类消费产品更具市场吸引力;语音辨识便是其中一 项,在小型化的产品上提供最直接及方便的输入方式,例如声控自动拨号。 然而在有限资源的硬件及软件上,处理单元执行速度慢,内存小,许多在计 算机平台上开发的技术及算法都必须做大幅修正才能放进这类平台内,以提 升辨识速度,减少内存使用量以符合硬件规格,同时还需确保辨识效能不因 此而变差。
技术实现思路
本专利技术为解决
技术介绍
中存在的上述技术问题,而提供一种减少硬件资 源的使用量的语音辨识定点化处理方法。本专利技术的技术解决方案是本专利技术为,其 特殊之处在于该方法包括以下步骤11) 提供语音讯号;12) 利用整数算法求取语音讯号的倒频谱系数;13) 建立语音讯号的长整数型态的声学模型;14) 利用倒频谱系数与声学模型进行维特比算法,得到辨识比对值。 上述步骤12)中利用整数算法求取语音讯号的倒频谱系数的具体步骤如下21) 获取语音讯号形成音框;22) 集中音框中的语音讯号的能量;23) 转换音框中的语音讯号,形成频谱频域中的频谱讯号;24) 取得频谱讯号的平方后,输入三角滤波器;25) 将经过滤波的数值取自然数对数,得到对数值,自然数对数的求取为利用其运算特性,在乘上一常数后,所建对数表求取;26) 经由离散余弦变换后,得到梅尔倒频谱系数。本专利技术的语音辨识定点化处理方法,利用整数算法求取语音讯号的倒频 谱系数,并建立语音讯号的一长整数型态的声学模型,最后利用倒频谱系数 与声学模型进行维特比算法,得到辨识比对值。通过整数算法及长整数型态 的声学模型,来实现语音辨识定点化处理,可减少硬件资源的使用量。 附图说明图l是本专利技术的方法流程图;图2是本专利技术的求取梅尔倒频谱系数流程图;图3是本专利技术的求取梅尔倒频谱系数的具体实施例流程图。具体实施方式参见图l,本专利技术的语音辨识定点化处理方法如下 Sll:提供语音讯号;S12:利用整数算法求取语音讯号的倒频谱系数; S13:建立语音讯号的一长整数型态的声学模型;S14:利用倒频谱系数与声学模型进行维特比算法,得到辨识比对值。上述的倒频谱系数包括为一梅尔倒频谱系数(Mel-Frequency Cepstrum Coefficients, MFCC ),长整数型态的声学模型所存的数值可表示为Mean*32768*2048、 Variable*32768*2048、 (Transition Probability) *32768 及Gconst*32768,于求取辨识比对值时,Mean与Variable与梅尔倒频谱系 数CV作运算,其结果再与Gconst及Transition Probability作运算,经由前 述定点方式求得的Cm僮已scale 32768*2048,因此将Mean与Variable scale 32768*2048后与C^值运算,再将运算结果值向右移llbits,再与scale为 32768之Gconst及Transition Probability作运算。参见图2,梅尔倒频谱系数的求取步骤如下S21:获取语音讯号形成复数个音框;S22:集中音框中的语音讯号的能量;S23:转换音框中的语音讯号,形成一频谱频域中的一频谱讯号; S24:取得频谱讯号的平方后,输入至少一三角滤波器; S25:将经过滤波的数值取自然数对数,得到复数个对数值,自然数对 数的求取为利用其运算特性,在乘上一常数后,所建对数表求取; S26:经由离散余弦变换后,得到梅尔倒频谱系数。上述的音框获取是将语音讯号复数个取样点,选取一固定数量的取样点 集合成一个音框(Frame),此固定数量较佳可为256点,其涵盖时间约32ms, 并正规化所取得的音框,以放大其值,前述的音框间的取样点一般可为部份 相互涵盖;所获取音框中的语音讯号是以少[/H^']-(15564x力'-l])》14, 0S/^Framesize,作为加强中高频部位的演算式;音框中的语音讯号更以 W]=(40x//W) 15, 0^'^Framesize,作为集中能量的演算式,//[/]的演算 式为//[/]=16384-16384xcostable[/] l, 0〇/当Framesize,其是将值为画1 1 的cos乘上如32768之值,使范围变成-32768 32768;之后,是以 7[d=(;c[/]xCOstable[/xA/]) 15, 0〇/〇Framesize, 0 § 1 ,进行快速傅利叶 转换(Fast Fourier Transform),将语音讯号转换为频谱讯号;将24个三角 滤波器中0 1的值乘上32768,使范围变成0 32768,放到滤波器中,其 演算式如所示,其/=1, 2,...,24, F阅为快速傅利叶转换的输出结果,71/] 为第/个滤波器的输出,这些三角滤波器系与使用者感知度相关;取对数的 演算式如logtable[/]=ln(/+l)x2048, 0SK1024;进行离散余弦变换的演算、《 w 式系为 CM = J] [yt。][M ]x参见图3,梅尔倒频谱系数的求取具体实施例的流程步骤如下S301:接收频率8KHz, 16bits的语音讯号; S302:切出涵盖32ms的音框;S303:加强中高频;S304:汉宁窗化处理;S305:进行快速傅利叶转换处理;S306:输出频谱;S307:将输出频谱取平方;S308:以三角滤波器滤波;S309:输出梅尔加权频谱;S310:对梅尔加权频谱取对数;S311:进行离散余弦转换;S312:输出12阶梅尔倒频谱系数;S313:进行数值微分;以及S314:输出24元声学向量。上述24元声学向量包含有12阶梅尔倒频谱系数及12个一阶导数。本文档来自技高网...

【技术保护点】
一种语音辨识定点化处理方法,其特征在于:该方法包括以下步骤:11)提供语音讯号;12)利用整数算法求取语音讯号的倒频谱系数;13)建立语音讯号的长整数型态的声学模型;14)利用倒频谱系数与声学模型进行维特比算法,得到辨识比对值。

【技术特征摘要】
1、一种语音辨识定点化处理方法,其特征在于该方法包括以下步骤11)提供语音讯号;12)利用整数算法求取语音讯号的倒频谱系数;13)建立语音讯号的长整数型态的声学模型;14)利用倒频谱系数与声学模型进行维特比算法,得到辨识比对值。2、 根据权利要求1所述的一种语音辨识定点化处理方法,其特征在于: 所述步骤12)中利用整数算法求取语音讯号的倒频谱系数的具体...

【专利技术属性】
技术研发人员:赵仁宏陈淮琰
申请(专利权)人:无敌科技西安有限公司
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利