一种自动调节的咽腔电子喉语音通讯系统技术方案

技术编号:4625675 阅读:228 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种可自动调节的咽腔电子喉语音合成与通讯系统与方法,基于计算机软件平台和外部硬件设备,包括摄像头、麦克风和电子喉振荡器,通过提取使用者面部和颈部运动图像的视觉语音特征信息,实现了对电子喉工作状态及咽腔嗓音源合成的自动控制,不仅使电子喉的使用无需手持,更加简单便捷,而且解决了合成嗓音源与电子喉施加部位不一致和电子喉语音机械不自然的问题,同时对咽腔电子喉重建语音进行动态去噪增强处理,提高了重建语音的质量与可懂度,并通过网络传输技术实现了电子喉语音的远程实时通讯,进一步拓展了电子喉的应用范围,改善了喉切除患者的生活质量。

【技术实现步骤摘要】

本专利技术属于病变语音重建及语音通讯
,特别涉及一种可以自动调节的咽腔电子喉语音通讯系统及方法。
技术介绍
我国每年都有大量患者因喉切除而失去发声能力,而现有技术中的电子喉以其适用范围广、操作简单、可长时间发声且易于理解而被广泛使用。但是目前的电子喉语音不自然,使用起来不方便,而且带有很大成分的辐射背景噪声和环境噪声,严重影响了语音的理解和悦耳程度。目前国内外使用的电子喉主要是颈外式,工作原理是波形发生器提供声门嗓音源波形,用以驱动换能器振动,但是使用时电子喉的施加位置并非在声门处,而是颈部两侧咽腔部位,这使得声门与咽腔之间的声道作用被忽略而造成重建语音的失真,影响了电子喉语音的使用。如何改善电子喉语音,满足嗓音源频率和按语音和语言需要自动调节的要求,是近些年国内外学者研究的热点。目前有运用指头施加在压阻组件上的压力来实现对电子喉的振荡频率的调节,也有通过控制呼气量和声带紧张程度来调节语音的频率和强度的电子喉,还有美国哈佛大学的E.A.Goldstein等于2004年研究提出用颈前肌电信号特征来控制电子喉开关的方法,取得了较好的结果。然而这几种方法都存在使用困难、训练方法复杂、成本高的缺点。-->随着计算机和网络技术的发展与普及,电子喉的发展也需要满足网络化的需求,而目前专门适合于网络通讯的电子喉还没有相关报导。
技术实现思路
针对上述现有技术电子喉的应用中存在的使用困难、训练方法复杂、成本高的缺点,本专利技术提供一种可自动调节的咽腔电子喉语音通讯系统及方法,该系统以计算机硬件系统为主,通过软件开发实现了基于面部和颈部运动特征自动调节的咽腔嗓音源合成,电子喉无需手持,使用便捷,同时集成了咽腔电子喉重建语音的增强处理功能,并通过互联网技术实现了电子喉语音的网络实时通讯,进一步拓展了电子喉的功能。一种自动调节的咽腔电子喉语音通讯系统,包括麦克风、摄像头,电子喉振荡器,音视频采集模块与计算机软硬件系统,摄像头和麦克风固定于麦克风支架上,耳机下方设置有固定带,电子喉振荡器设置于固定带上,该系统还包括下述三个主要模块:1)发声过程中面部和颈部运动图像采集与处理模块,实现从运动图像的分析到视觉语音特征参数的提取;2)咽腔嗓音源动态合成模块,将提取的视觉语音特征参数转换为嗓音源合成模型参数,并按照咽腔嗓音源数学模型合成波形;3)咽腔电子喉重建语音实时增强与网络通讯模块,对采集的咽腔电子喉重建语音进行实时增强处理,并将处理后的语音进行远程网络传输,实现网络通讯功能;摄像头通过数据连接线将采集到的运动图像作为输入信号传输给运动图像处理模块进行视觉语音特征参数提取;运动图像处理后输-->出的视觉语音特征参数,又作为输入信号进入咽腔嗓音源合成模块控制波形的合成;合成的咽腔嗓音源波形再次通过数据线输出给电子喉振荡器,施加于颈部咽腔处;重建的咽腔电子喉语音经麦克风设备采集后,通过数据线输入语音增强模块,同时该模块也接收控制信号的输入;通讯模块的输入则包括摄像头采集的视频信号与增强后输出的语音信号两部分,最终经过网络输出到另一个客户端,同时另一个客户端发出的音视频信号也是在通讯模块接收并播放。由电子喉施加装置向计算机传输音视频信号进行处理,计算机提取的电子喉开关信号与合成的咽腔嗓音源信号传输给电子喉施加装置,电子喉施加装置工作所需的电能由计算机提供。一种自动调节的咽腔电子喉语音通讯的方法,音视频采集模块同时开始工作,利用视频采集模块摄像头获取发声过程中使用者面部和颈部的运动图像作为系统输入,图像处理模块对输入图像进行预处理,去除干扰信号,再通过目标区域定位、分割、特征参数提取,以及特征区域运动的跟踪,得到与发声特征相关的视觉语音特征参数,再经自动控制合成系统通过关系转换由视觉语音参数推导出咽腔嗓音源合成所需的模型参数和开关信号,控制咽腔嗓音源波形合成以及施加装置的振动;与此同时,音频采集模块麦克风记录下咽腔电子喉重建语音信号,结合开关控制信号和咽腔嗓音源合成信息,指导泄露周期噪声和环境噪声的估计,以及谱减参数的调整,并对有音帧进行谱减语音增强处理,最终将得到的视频图像和增强的音频信号整合后,由网络系统模块完成发送、接受和本地播放,实现远程通讯。本专利技术的系统与方法,通过提取使用者面部和颈部运动图像的视觉语音特征信息,实现了对电子喉工作状态及咽腔嗓音源合成的自动-->控制,使用时无需手持,更加简单便捷,解决了合成嗓音源与电子喉施加部位不一致和电子喉语音不自然的问题,同时对咽腔电子喉重建语音进行动态去噪增强处理,提高了重建语音的质量与可懂度,并通过网络传输技术实现了电子喉语音的远程实时通讯,拓展了电子喉的应用范围,改善了喉切除患者的生活质量附图说明图1为本专利技术咽腔电子喉语音合成与通讯系统的结构示意图。图2为本专利技术运动图像处理程序流程图。图3为本专利技术连续语音波形图。图4为与图3连续语音对应的嘴唇特征曲线(实线)、阈值(点线)和开关信号(虚线)的对比图。图5为本专利技术咽腔嗓音源合成流程图。图6为本专利技术电子喉施加装置外观图,其中标号分别表示:耳机1;电子喉振荡器2;摄像机和麦克风3;连接线4,固定带5。图7为本专利技术咽腔电子喉语音增强过程流程图。具体实施方式以下结合附图对本专利技术做进一步的详细描述。本专利技术以计算机硬件系统为主,利用麦克风、摄像头等音视频采集模块对发声过程中使用者面部和颈部的运动图像和咽腔电子喉重建语音进行实时采集,通过计算机程序设计实现视觉语音特征参数提取、咽腔嗓音源合成等各种功能的系统软件,完成对咽腔电子喉嗓音源波形的自动控制合成,再由振荡器施加于颈部咽腔处输出振动,重建语音采集后经过语音增强处理,最终由网络通讯模块实现远程通讯的功能。-->整个系统实现的结构图可参看图1,图像采集模块通过图像处理模块与自动控制模块相连接,同时图像采集模块通过通讯模块与外部网络双相连通;语音采集模块,语音增强模块通过通讯模块与外部网络相双向相连接;自动控制模块通过嗓音源合成模块与电子喉施加装置相连接。系统启动后,音视频采集模块同时开始工作,利用视频采集模块摄像头获取发声过程中使用者面部和颈部的运动图像作为系统输入,图像处理模块对输入图像进行预处理,去除干扰信号,再通过目标区域定位、分割、特征参数提取,以及特征区域运动的跟踪,得到与发声特征相关的视觉语音特征参数,再经自动控制合成系统通过关系转换由视觉语音参数推导出咽腔嗓音源合成所需的模型参数和开关信号,控制咽腔嗓音源波形合成以及施加装置的振动;与此同时,音频采集模块麦克风记录下咽腔电子喉重建语音信号,结合开关控制信号和咽腔嗓音源合成信息,指导泄露周期噪声和环境噪声的估计,以及谱减参数的调整,并对有音帧进行谱减语音增强处理,最终将得到的视频图像和增强的音频信号整合后,由网络系统模块完成发送、接受和本地播放,实现远程通讯。本专利技术的第一模块由面部和颈部运动图像采集与处理模块组成。该模块从视觉语音特征出发,利用摄像头采集发声过程中面部和颈部的运动图像,并以视频信号作为系统输入,通过预处理、目标区域检测与定位、特征区域分割与跟踪,提取得到反映发声特点的唇部和颈部视觉语音特征参数,包括嘴唇张开闭合程度、颈部运动信号,并以此作为输出用于指导咽腔嗓音源的合成,实现对电子喉语音的实时自动调节。本专利技术的第二本文档来自技高网...

【技术保护点】
一种自动调节的咽腔电子喉语音通讯系统,包括麦克风、摄像头,电子喉振荡器(2),音视频采集模块与计算机软硬件系统,摄像头和麦克风(3)固定于麦克风支架上,耳机(1)下方设置有固定带,电子喉振荡器设置于固定带(5)上,其特征在于: 该系统包括下述三个主要模块: 1)发声过程中面部和颈部运动图像采集与处理模块,实现从运动图像的分析到视觉语音特征参数的提取; 2)咽腔嗓音源动态合成模块,将提取的视觉语音特征参数转换为嗓音源合成模型参数,并按照咽腔嗓音源数学模型合成波形; 3)咽腔电子喉重建语音实时增强与网络通讯模块,对采集的咽腔电子喉重建语音进行实时增强处理,并将处理后的语音进行远程网络传输,实现网络通讯功能; 摄像头通过数据连接线将采集到的运动图像作为输入信号传输给运动图像处理模块进行视觉语音特征参数提取;运动图像处理后输出的视觉语音特征参数,又作为输入信号进入咽腔嗓音源合成模块控制波形的合成;合成的咽腔嗓音源波形再次通过数据线输出给电子喉振荡器,施加于颈部咽腔处;重建的咽腔电子喉语音经麦克风设备采集后,通过数据线输入语音增强模块,同时该模块也接收控制信号的输入;通讯模块的输入则包括摄像头采集的视频信号与增强后输出的语音信号两部分,最终经过网络输出到另一个客户端,同时另一个客户端发出的音视频信号也是在通讯模块接收并播放; 由电子喉施加装置向计算机传输音视频信号进行处理,计算机提取的电子喉开关信号与合成的咽腔嗓音源信号传输给电子喉施加装置,电子喉施加装置工作所需的电能由计算机提供。...

【技术特征摘要】
1.一种自动调节的咽腔电子喉语音通讯系统,包括麦克风、摄像头,电子喉振荡器(2),音视频采集模块与计算机软硬件系统,摄像头和麦克风(3)固定于麦克风支架上,耳机(1)下方设置有固定带,电子喉振荡器设置于固定带(5)上,其特征在于:该系统包括下述三个主要模块:1)发声过程中面部和颈部运动图像采集与处理模块,实现从运动图像的分析到视觉语音特征参数的提取;2)咽腔嗓音源动态合成模块,将提取的视觉语音特征参数转换为嗓音源合成模型参数,并按照咽腔嗓音源数学模型合成波形;3)咽腔电子喉重建语音实时增强与网络通讯模块,对采集的咽腔电子喉重建语音进行实时增强处理,并将处理后的语音进行远程网络传输,实现网络通讯功能;摄像头通过数据连接线将采集到的运动图像作为输入信号传输给运动图像处理模块进行视觉语音特征参数提取;运动图像处理后输出的视觉语音特征参数,又作为输入信号进入咽腔嗓音源合成模块控制波形的合成;合成的咽腔嗓音源波形再次通过数据线输出给电子喉振荡器,施加于颈部咽腔处;重建的咽腔电子喉语音经麦克风设备采集后,通过数据线输入语音增强模块,同时该模块也接收控制信号的输入;通讯模块的输入则包括摄像头采集的视频信号与增强后输出的语音信号两部分,最终经过网络输出到另一个客户端,同时另一个客户端发出的音视频信号也是在通讯模块接收并播放;由电子喉施加装置向计算机传输音视频信号进行处理,计算机提取的电子喉开关信号与合成的咽腔嗓音源信号传输给电子喉施加装置,电子喉施加装置工作所需的电能由计算机提供。2.一种自动调节的咽腔电子喉语音通讯的方法,其特征在于:音视频采集模块同时开始工作,利用视频采集模块摄像头获取发声过程中使用者面部和颈部的运动图像作为系统输入,图像处理模块对输入图像进行预处理,去除干扰信号,再利用人脸肤色特征目标区域定位、分割、特征参数提取,以及特征区域运动的跟踪,得到与发声特征相关的视觉语音特征参数,再经自动控制合成系统通过关系转换由视觉语音参数推导出咽腔嗓音源合成所需的模型参数和开关信号,控制咽腔嗓音源波形合成以及施加装置的振动;与此同时,音频采集模块麦克风记录下咽腔电子喉重建语音信号,结合开关控制信号和咽腔嗓音源合成信息,指导泄露周期噪声和环境噪声的估计,以及谱减参数的调整,并对有音帧进行谱减语音增强处理,最终将得到的视频图像和增强的音频信号整合后,由网络系统模块完成发送、接受和本地播放,实现远程通讯。3.根据权利要求2所述的自动调节的咽腔电子喉语音通讯的方法,其特征在于:所述的面部运动图像处理主要是利用嘴唇形状特征反应发声起止的变化提取电子喉开关信号,具体步骤如下:1)初始化参数,采集一帧视频图像;2)利用唇色滤波器计算规定矩形范围的唇色特征值,并归一化为0-255灰度级,得到唇色特征值图像,如果存在前一帧,利用前一帧唇部区域范围和肤色平均特征值,指导这一帧计算;3)利用改进的最大类间方差Otsu法计算最佳分割阈值,以此进行图像二值化分割,得到唇部预分割图像,如果存在前一帧,利用前一帧分割阈值...

【专利技术属性】
技术研发人员:万明习吴亮王素品吴辉雄刘菲翟健东
申请(专利权)人:西安交通大学
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利