一种自动调节的咽腔电子喉语音通讯系统技术方案

技术编号：4625675 阅读：228 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种可自动调节的咽腔电子喉语音合成与通讯系统与方法，基于计算机软件平台和外部硬件设备，包括摄像头、麦克风和电子喉振荡器，通过提取使用者面部和颈部运动图像的视觉语音特征信息，实现了对电子喉工作状态及咽腔嗓音源合成的自动控制，不仅使电子喉的使用无需手持，更加简单便捷，而且解决了合成嗓音源与电子喉施加部位不一致和电子喉语音机械不自然的问题，同时对咽腔电子喉重建语音进行动态去噪增强处理，提高了重建语音的质量与可懂度，并通过网络传输技术实现了电子喉语音的远程实时通讯，进一步拓展了电子喉的应用范围，改善了喉切除患者的生活质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于病变语音重建及语音通讯
，特别涉及一种可以自动调节的咽腔电子喉语音通讯系统及方法。
技术介绍
我国每年都有大量患者因喉切除而失去发声能力，而现有技术中的电子喉以其适用范围广、操作简单、可长时间发声且易于理解而被广泛使用。但是目前的电子喉语音不自然，使用起来不方便，而且带有很大成分的辐射背景噪声和环境噪声，严重影响了语音的理解和悦耳程度。目前国内外使用的电子喉主要是颈外式，工作原理是波形发生器提供声门嗓音源波形，用以驱动换能器振动，但是使用时电子喉的施加位置并非在声门处，而是颈部两侧咽腔部位，这使得声门与咽腔之间的声道作用被忽略而造成重建语音的失真，影响了电子喉语音的使用。如何改善电子喉语音，满足嗓音源频率和按语音和语言需要自动调节的要求，是近些年国内外学者研究的热点。目前有运用指头施加在压阻组件上的压力来实现对电子喉的振荡频率的调节，也有通过控制呼气量和声带紧张程度来调节语音的频率和强度的电子喉，还有美国哈佛大学的E.A.Goldstein等于2004年研究提出用颈前肌电信号特征来控制电子喉开关的方法，取得了较好的结果。然而这几种方法都存在使用困难、训练方法复杂、成本高的缺点。-->随着计算机和网络技术的发展与普及，电子喉的发展也需要满足网络化的需求，而目前专门适合于网络通讯的电子喉还没有相关报导。
技术实现思路
针对上述现有技术电子喉的应用中存在的使用困难、训练方法复杂、成本高的缺点，本专利技术提供一种可自动调节的咽腔电子喉语音通讯系统及方法，该系统以计算机硬件系统为主，通过软件开发实现了基于面部和颈部运动特征自动调节的咽腔嗓音源合成，...

【技术保护点】
一种自动调节的咽腔电子喉语音通讯系统，包括麦克风、摄像头，电子喉振荡器（２），音视频采集模块与计算机软硬件系统，摄像头和麦克风（３）固定于麦克风支架上，耳机（１）下方设置有固定带，电子喉振荡器设置于固定带（５）上，其特征在于：　该系统包括下述三个主要模块：　１）发声过程中面部和颈部运动图像采集与处理模块，实现从运动图像的分析到视觉语音特征参数的提取；　２）咽腔嗓音源动态合成模块，将提取的视觉语音特征参数转换为嗓音源合成模型参数，并按照咽腔嗓音源数学模型合成波形；　３）咽腔电子喉重建语音实时增强与网络通讯模块，对采集的咽腔电子喉重建语音进行实时增强处理，并将处理后的语音进行远程网络传输，实现网络通讯功能；　摄像头通过数据连接线将采集到的运动图像作为输入信号传输给运动图像处理模块进行视觉语音特征参数提取；运动图像处理后输出的视觉语音特征参数，又作为输入信号进入咽腔嗓音源合成模块控制波形的合成；合成的咽腔嗓音源波形再次通过数据线输出给电子喉振荡器，施加于颈部咽腔处；重建的咽腔电子喉语音经麦克风设备采集后，通过数据线输入语音增强模块，同时该模块也接收控制信号的输入；通讯模块的输入则包括摄像头采...

【技术特征摘要】
1.一种自动调节的咽腔电子喉语音通讯系统，包括麦克风、摄像头，电子喉振荡器(2)，音视频采集模块与计算机软硬件系统，摄像头和麦克风(3)固定于麦克风支架上，耳机(1)下方设置有固定带，电子喉振荡器设置于固定带(5)上，其特征在于：该系统包括下述三个主要模块：1)发声过程中面部和颈部运动图像采集与处理模块，实现从运动图像的分析到视觉语音特征参数的提取；2)咽腔嗓音源动态合成模块，将提取的视觉语音特征参数转换为嗓音源合成模型参数，并按照咽腔嗓音源数学模型合成波形；3)咽腔电子喉重建语音实时增强与网络通讯模块，对采集的咽腔电子喉重建语音进行实时增强处理，并将处理后的语音进行远程网络传输，实现网络通讯功能；摄像头通过数据连接线将采集到的运动图像作为输入信号传输给运动图像处理模块进行视觉语音特征参数提取；运动图像处理后输出的视觉语音特征参数，又作为输入信号进入咽腔嗓音源合成模块控制波形的合成；合成的咽腔嗓音源波形再次通过数据线输出给电子喉振荡器，施加于颈部咽腔处；重建的咽腔电子喉语音经麦克风设备采集后，通过数据线输入语音增强模块，同时该模块也接收控制信号的输入；通讯模块的输入则包括摄像头采集的视频信号与增强后输出的语音信号两部分，最终经过网络输出到另一个客户端，同时另一个客户端发出的音视频信号也是在通讯模块接收并播放；由电子喉施加装置向计算机传输音视频信号进行处理，计算机提取的电子喉开关信号与合成的咽腔嗓音源信号传输给电子喉施加装置，电子喉施加装置工作所需的电能由计算机提供。2.一种自动调节的咽腔电子喉语音通讯的方法，其特征在于：音视频采集模块同时开始工作，利用视频采集模块摄像头获取发声过程中使用者面部和颈部的运动图像作为系统输入，图像处理模块对输入图像进行预处理，去除干扰信号，再利用人脸肤色特征目标区域定位、分割、特征参数提取，以及特征区域运动的跟踪，得到与发声特征相关的视觉语音特征参数，再经自动控制合成系统通过关系转换由视觉语音参数推导出咽腔嗓音源合成所需的模型参数和开关信号，控制咽腔嗓音源波形合成以及施加装置的振动；与此同时，音频采集模块麦克风记录下咽腔电子喉重建语音信号，结合开关控制信号和咽腔嗓音源合成信息，指导泄露周期噪声和环境噪声的估计，以及谱减参数的调整，并对有音帧进行谱减语音增强处理，最终将得到的视频图像和增强的音频信号整合后，由网络系统模块完成发送、接受和本地播放，实现远程通讯。3.根据权利要求2所述的自动调节的咽腔电子喉语音通讯的方法，其特征在于：所述的面部运动图像处理主要是利用嘴唇形状特征反应发声起止的变化提取电子喉开关信号，具体步骤如下：1)初始化参数，采集一帧视频图像；2)利用唇色滤波器计算规定矩形范围的唇色特征值，并归一化为0-255灰度级，得到唇色特征值图像，如果存在前一帧，利用前一帧唇部区域范围和肤色平均特征值，指导这一帧计算；3)利用改进的最大类间方差Otsu法计算最佳分割阈值，以此进行图像二值化分割，得到唇部预分割图像，如果存在前一帧，利用前一帧分割阈值...

【专利技术属性】
技术研发人员：万明习，吴亮，王素品，吴辉雄，刘菲，翟健东，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：87[中国|西安]

全部详细技术资料下载我是这个专利的主人