当前位置: 首页 > 专利查询>渤海大学专利>正文

基于集成特征和神经网络的语音可视化方法技术

技术编号:6803981 阅读:493 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于集成特征和神经网络的语音可视化方法,其特殊之处是:包括语音信号预处理、特征提取、特征优化、神经网络设计、位置信息映射、主颜色编码、图案信息编码和图像合成八个步骤。本发明专利技术通过集成不同的语音特征进入一幅图像中为聋哑人创造了语音信号的可读模式,而且不同位置上的图像颜色不同,这就更好地利用了聋哑人对色彩刺激的视觉记忆能力较强的优点;为减少屏幕容纳负荷和观察者记忆负担,提出采用声调特征来对图案信息进行编码,这样由相同声韵母不同声调构成的语音会显就示在同一个位置上。与现有方法相比,本发明专利技术具有很好的鲁棒性和分类定位能力,在聋哑人辅助学习方面,收到了良好的效果。?

【技术实现步骤摘要】

本专利技术涉及一种汉语普通话的可视化方法,特别涉及一种。
技术介绍
语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类思维的一种依托。而对聋 人来说,语言交流变成一件很难实现的事情,一部分聋 人不能说话是因为他们的听觉器官遭到破坏,不能将语音信息采集到大脑。研究表明,人类听觉系统和视觉系统是两个性质不同的并具有互补性的信息系统,视觉系统是一个高度并行的信息接收和处理系统,人类眼球中视网膜上的数百万个锥状细胞通过纤维状神经组织与大脑相连,形成一个高度并行的信道,视觉信道接受信息的速率是很高的,据测量和估算,看电视时的信息接收速率大致可达到2X104Vs,这比听觉系统听语音时的信息接收速度高出上千倍,因此人们相信人类所获得的信息有70%是通过视觉获得的说法。所以对于聋 人人来说,这无疑就是一个很大的助手,听觉的缺陷由视觉来补偿,语音不仅能听见,还可以通过多种其他形式使聋哑人“看”见。1947年R. K. Potter和G. A. Kopp等人就提出了一种可视化方法一语谱图,随后有不同的语音研究专家开始研究改进这种语音可视化方法,比如在1976年L. C. Stewart等人提出了有色谱图和1984年G. M. Kuhn等人提出了对聋人进行训练的实时的语谱图系统,以及1986年P. E. Stern、1998年F. Plante和2008年R. Steinberg等人也提出了许多语谱图的改进方法,但是显示的语谱图的专业性很强,而且很难辨别记忆。尤其是对于同一个语音不同的人来说,甚至是同一个语音同一个人来说都有可能造成语谱图的变化,对于不同环境下录制的语音信号其鲁棒性能更为不好。此外,还有一些学者对人的发音器官的运动变化以及面部表情的变化来实现语音可视化,有效地剖析了人的发音过程,但就其语音可懂度而言,还难以达到理想效果,除极少数专家以外,人们很难直接通过观察发音器官的运动和面部表情的变化而准确地感知语曰O
技术实现思路
本专利技术所要解决的技术问题是提供一种简单易懂且高鲁棒性的,通过该方法可帮助听力障碍者进行语言训练,建立、完善听觉认知,形成正确的言语反射,重建听觉言语链,可以最大可能的恢复自身的语音功能。一种,包括以下步骤1、语音信号预处理通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧加窗和端点检测;2、特征提取(2. 1)采用基于Hilbert-Huang变换的方法来估算预处理后的语音信号共振峰频率; (2.2)计算出预处理后语音信号的基音频率曲线的一次斜率、二次斜率、曲线的谷点和曲线的平坦度作为声调特征参数;(2. 3)计算出基于MUSIC和感知特性的鲁棒特征参数(PMUSIC-MFCC):PMUSIC-MFCC1 PMUSIC-MFCC 12 ;(2. 4)计算出基于小波包变换的语音信号鲁棒特征参数(WPTC) =WPTCl WPTC20 ;3、特征优化采用基于正交实验设计的语音识别特征参数优化的方法对所述的PMUSIC-MFCC1 PMUSIC-MFCC 12和WPTCl WPTC20进行优化,得到优化特征参数组合;4、神经网络设计所述的神经网络是由神经网络I和神经网络II组成,其中神经网络I的输入层有4个神经元,输出层有2个神经元,神经网络II的输入层的数量与优化特征参数组合的数量相同,输出层有η个神经元,η为7、8或9 ;5、位置信息映射将优化特征参数组合作为神经网络II的输入,将特征编成具有m个码的方阵, 2114彡m彡2n,按着由左到右、由上到下的顺序依次对应着图像中的一个位置并用“0”、“1” 组合进行编码,每个位置对应一个无调单语音;6、主颜色编码采用共振峰特征来对主颜色信息进行编码,把所有的共振峰特征值Fl、F2、F3分别求平均值,然后通过R=5F1/F3、G=3F3/5F2、B=F2/3F1,将其转换成主颜色信息;7、图案信息编码采用声调特征来对图案信息进行编码,四个声调特征参数作为神经网络I的输入,神经网络I的输出即为相应的图案信息,用00、01、10、11分别表示阴平、阳平、上声和去声; 8、图像合成按照单语音产生的先后顺序,把位置信息、主颜色信息与图案信息融合在一幅图像中在显示屏上显示,每幅图像显示2 5秒后消失。上述的神经网络II的输出层有7个神经元,并将特征编成100个码,以对应不同的位置。上述的优化特征参数组合为PMUSI C-MFCCl,PMUSIC-MFCC3,PMUSIC-MFCC4, PMUSIC-MFCC7, PMUSIC-MFCC8,PMUSIC-MFCC11, WPTC1, WPTC2, WPTC4, WPTC5, WPTC7, WPTC9, WPTClO, WPTCl2, WPTCl5, WPTCl6 上述的图像合成时,先获得位置信息,然后在相应位置添加主颜色信息,最后用声调信息置换相应位置的主颜色信息,获得相应的语音图像。本专利技术的有益效果如下(1)本专利技术通过集成不同的语音特征进入一幅图像中,为聋哑人创造语音信号的可读模式,与现有技术相比,具有良好的可读性、易懂性及鲁棒性,弥补了用语谱图来进行可视化很难辨别和记忆的缺点。无论是听力受损人群还是普通人,经过一段时间的专门训练,都可以直观地辨识出该可视化图像所对应的发音,并和健全人进行交流;(2)本专利技术充分的利用了聋 人视觉鉴别能力和对色彩刺激的视觉记忆能力较强的优点,不同位置上的图像颜色不同,大大增加了聋哑人学习的兴趣;(3)本专利技术采用人工神经网络来对特征进行提取编码,有效地提高了语音的识别率,缩短了识别时间,实现了效率与时间的双赢。而且用两个神经网络来进行编码,分工明确,避免了反复进行训练的困扰;(4)本专利技术提出采用声调特征来对图案信息进行编码,由相同声母韵母不同声调构成的语音就会显示在同一个位置上,这样就减少了屏幕的容纳负荷和观察者的记忆负担。附图说明图1为本专利技术的系统结构框图; 图2是图1中神经网络的结构示意图; 图3为语音位置信息映射示意图4为主颜色编码框图5为图案信息编码示意图6为“我”的语音可视化效果示例图7为相同声韵母组成的音的四声调“zhan”的语音可视化效果示例图; 图8为三字词“展览馆”的语音可视化效果示例图。具体实施例方式下面结合附图和实施例,对本专利技术所述的技术方案作详细说明如图1所示,本专利技术的系统结构分为8大块语音信号预处理模块、特征提取模块、特征优化模块、神经网络设计模块、位置信息映射模块、主颜色编码模块、图案信息编码模块及图像合成模块,具体过程如下一、语音信号预处理通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧加窗和端点检测;所述的处理单元可采用计算机、单片机或DSP芯片等,本实例以计算机为例。二、特征提取 1、共振峰特征采用基于Hilbert-Huang变换的方法来估算预处理后的语音信号共振峰频率。由快速傅里叶变换(FFT)初步估计出的语音信号的各阶共振峰频率确定相应带通滤波器的参数,并用该参数对语音信号作滤波处理,对滤波后的信号进行经验模态分解 (EMD)得到一族固有模态函数(IMF),按能量最大原则确定出含有共振峰频率IMF,计算出该IMF的瞬时频率和HHbert谱即得本文档来自技高网
...

【技术保护点】
信息与图案信息融合在一幅图像中在显示屏上显示,每幅图像显示2~5秒后消失。7)图案信息编码采用声调特征来对图案信息进行编码,四个声调特征参数作为神经网络Ⅰ的输入,神经网络Ⅰ的输出即为相应的图案信息,用00、01、10、11分别表示阴平、阳平、上声和去声; (8)图像合成按照单语音产生的先后顺序,把位置信息、主颜色“1”组合进行编码,每个位置对应一个无调单语音;(6)主颜色编码采用共振峰特征来对主颜色信息进行编码,把所有的共振峰特征值F1、F2、F3分别求平均值,然后通过R=5F1/F3、G=3F3/5F2、B=F2/3F1,将其转换成主颜色信息;(量与优化特征参数组合的数量相同,输出层有n个神经元,n为7、8或9;(5)位置信息映射将优化特征参数组合作为神经网络Ⅱ的输入,将特征编成具有m个码的方阵,2n-1≤m≤2n,按着由左到右、由上到下的顺序依次对应着图像中的一个位置并用“0”、-MFCC1~PMUSIC-MFCC12和WPTC1~WPTC20进行优化,得到优化特征参数组合;(4)神经网络设计所述的神经网络是由神经网络Ⅰ和神经网络Ⅱ组成,其中神经网络Ⅰ的输入层有4个神经元,输出层有2个神经元,神经网络Ⅱ的输入层的数FCC):PMUSIC-MFCC1~PMUSIC-MFCC 12;(2.4)计算出基于小波包变换的语音信号鲁棒特征参数(WPTC):WPTC1~WPTC20;(3)特征优化采用基于正交实验设计的语音识别特征参数优化的方法对所述的PMUSICHuang变换的方法来估算预处理后的语音信号共振峰频率;(2.2) 计算出预处理后语音信号的基音频率曲线的一次斜率、二次斜率、曲线的谷点和曲线的平坦度作为声调特征参数;(2.3)计算出基于MUSIC和感知特性的鲁棒特征参数(PMUSIC-M1.一种基于集成特征和神经网络的语音可视化方法,其特征是:包括以下步骤:(1)语音信号预处理通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧加窗和端点检测;(2)特征提取(2.1) 采用基于Hilbert-...

【技术特征摘要】

【专利技术属性】
技术研发人员:韩志艳伦淑娴王健王东于忠党王巍邰治新
申请(专利权)人:渤海大学
类型:发明
国别省市:21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1