当前位置: 首页 > 专利查询>清华大学专利>正文

一种语音增强的系统技术方案

技术编号:7345146 阅读:239 留言:0更新日期:2012-05-17 22:30
本发明专利技术提供了一种语音增强的系统,通过特定的双麦克结构,模拟人耳的听觉场景分析能力来实现语音增强,具有与噪声类型无关的特点,可广泛应用于各类噪声环境下的语音增强,利用计算听觉场景分析的原理,将目标语音从背景噪声中进行分离,从而实现去噪,从而实现了与噪声的具体类型、各种噪声源的个数、目标声源与噪声源的空间拓扑结构无关,在实现较好去噪效果的同时保证较高的语音质量。

【技术实现步骤摘要】

本专利技术涉及语音增强
,特别是涉及一种语音增强的系统
技术介绍
语音增强技术应用于噪声环境下的语音通信,可以提高通话质量;应用于人机对话,可以提高识别正确率。在人们的日常生活的各种噪声环境下,人们往往更希望获取经过降噪处理后的语音信息。语音增强的方法按通道个数可以分为单麦克语音增强与麦克风阵列增强技术。传统的单麦克语音增强技术如谱减法、维纳滤波等方法,都是先估计噪声幅值或能量,再将其从带噪语音中减去。对于平稳噪声如白噪声,可以达到一定的效果, 然而对于诸如非目标人说话的噪声、音乐噪声等非平稳噪声则可能造成较严重的语音损伤。传统的多麦克语音增强技术是波速形成技术,包括延时相加、延时相减等固定波束,以及广义旁瓣消除等自适应波束。贝尔实验室研发了一种具有自适应特性的差分麦克风阵列 (Gary W. Elko, Anh-Tho Nguyen Pong,A simple adaptive first-orderdifferential microphone, In :proc.1995Workshop on Applications of SignalProcessing to Audio and Acoustics,72-169),此类方法通过自适应调整空间滤波的参数,对位于零陷方向的不同类型的噪声均有一定的去噪效果但仍存在例如声源定位、对于来自与主声源相近的角度方向的噪声抑制效果差等问题。此外还有多子带的处理技术,如华为公司申请的一个专利 (200410034505. 6) “一种语音增强方法”。该方法采用的是多子带处理技术,虽然也能取得一定的去噪效果,但由于其仍是基于对子带信噪比的估计,因而也无法广泛适用于各种噪声类型。因此,目前需要本领域技术人员迫切解决的一个技术问题就是如何能够创新地提出一种语音增强的方法或者是系统,以满足各类噪声环境下的语音增强需求。
技术实现思路
本专利技术所要解决的技术问题是提供一种语音增强的系统,用以满足各类噪声环境下的语音增强需求,在实现较好去噪效果的同时保证较高的语音质量。为了解决上述问题,本专利技术公开了一种语音增强的系统,所述系统包括语音采集模块,包括两路麦克,其中一路麦克置于目标声源的近端;另一路麦克置于目标声源的远端;所述采集模块用于采集两路语音信号;双麦克语音增强模块,用于对采集的两路语音信号进行处理,以获取增强后的目标声源语音信号;所述双麦克语音增强模块包括以下子模块波束形成子模块,用于获得目标声源语音的参考信号;零陷波束形成子模块,用于获得环境噪声的参考信号;外围分析子模块,用于通过模拟声音进入人耳的过程,将两路语音进行分频及对语音信号进行变换;特征提取子模块,用于提取分频后两路语音信号的延时差和能量差信息;生成掩蔽子模块,根据提取的延时差和能量差信息获得不同时频区域对应的掩蔽值;掩蔽值平滑子模块,用于对提取的掩蔽值进行平滑处理;语音信号重建子模块,用于对由波束形成模块得到的参考信号进行掩蔽值处理, 并合成增强后的语音信号作为输出。优选的,所述语音采集模块还包括以下子模块滤波子模块,用于对两路麦克采集的语音信号进行带通滤波;放大子模块,用于将滤波后的语音信号进行放大;A/D转换子模块,用于将放大后的语音信号转换为数字信号。优选的,所述双麦克语音增强模块还包括以下子模块语音激活检测子模块,用于检测纯环境噪声语音段。优选的,所述外围分析子模块包括以下单元内耳耳蜗模拟单元,用于将语音信号进行gammatone滤波分频,获取两路信号在 128个不同子频带的语音信号;内耳非线性神经传导模拟单元,用于将每个频率通道的子带信号进行非线性变换;中耳模拟单元,用于通过对每个通道的gammatone滤波器的增益按照等响度曲线进行调整。与现有技术相比,本专利技术具有以下优点本专利技术通过特定的双麦克结构,模拟人耳的听觉场景分析能力来实现语音增强, 具有与噪声类型无关的特点,可广泛应用于各类噪声环境下的语音增强,利用计算听觉场景分析的原理,将目标语音从背景噪声中进行分离,从而实现去噪,从而实现了与噪声的具体类型、各种噪声源的个数、目标声源与噪声源的空间拓扑结构无关,在实现较好去噪效果的同时保证较高的语音质量。附图说明图1是本专利技术具体实施方式中所述的人耳基本结构的示意图;图2是本专利技术具体实施方式中所述的外围分析的基本原理与人耳工作机理的对照示意图;图3是本专利技术实施例所述的一种语音增强的系统结构图;图4是本专利技术实施例所述的语音采集中麦克风阵列分布的结构示意图;图5是本专利技术实施例所述的语音信号采集部分结构框图;图6是本专利技术实施例所述的双麦克语音增强算法部分总体示意图;图7是本专利技术实施例所述的双麦克VAD模块原理示意;图8是本专利技术实施例所述的Meddis模型原理示意图;图9是本专利技术实施例所述的信号重建原理示意图。具体实施例方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。近年来,基于听觉场景分析的语音处理技术的研究日趋活跃。听觉场景分析 (Auditory Scene Analysis)是指人类的听觉系统能够从复杂的混合声音中选择并跟踪某一说话人的声音,这一现象首先由Cherry发现,并称之为“鸡尾酒会效应”。听觉场景分析的概念首先是由著名心理听觉学家Albert Bregman在其专著《计算场景分析》中提出。听觉系统利用声音的各种特性(时域、频域、空间位置等),通过自下而上(分解)和自上而下 (学习)的双向信息交流,对现实世界的混合声音进行分解,使各成分归属于各自的物理声源。此后,人们尝试用计算机模拟人的这种听觉特性,产生了计算听觉场景分析 (Computational Auditory Scene Analysis,CASA)方法。既然是模拟人的一种生理机能, 因此,这里对人耳的生理结构及声音进入人耳、引起神经冲动并由听神经传导、人脑的处理机能做一些介绍并用计算机算法的形式模拟实现。人耳的基本结构的示意图如图1所示,主要包括外耳、中耳、内耳。其中,外耳包括外耳道和鼓膜,鼓膜是中耳的门户。声音经鼓膜传到中耳,中耳主要由锥骨、镫骨、钻骨三块听小骨组成,其对声音的传播起到一个类似于杠杆的放大作用。内耳里最重要的器官是耳蜗,当声音引起内耳的卵圆窗振动后,这种振动通过耳蜗内的淋巴液的流动传递。而耳蜗内有细小的毛细胞把淋巴液流动转化为生物电信号产生神经冲动,最后由神经把信息送往大脑进一步处理。模拟声音由空间路径进行传播以及人的外耳部分对声音的影响我们用的是 HRTF (Head Related Transfer Function),这个头相关传输函数是通过一个人头模型采集声音信号,再计算出来的一个传输函数。由于中耳的模拟是与内耳的工作相关的,我们先介绍内耳。内耳的第一个过程是进行耳蜗滤波,将声音分解到不同的频带上。例如,可以采用1 个滤波器组成的非均勻的 gammatone滤波器组,由于各个频带是依据人耳的听觉特性进行划分的,gammatone滤波器组体现了人耳的听觉特性信息。而中耳的工作可以对于各个频率通道按照等响度曲线对gammatone滤波器的增益进行调整来进行模拟。内耳的另一个过程就是产生神经冲动的过程,这是一个非线性变换的过程。本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:梁维谦胡奎杨华中蒋毅陈卓
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术