一种基于听觉模型和信源方位的多通路语音降噪方法技术

技术编号:24332730 阅读:65 留言:0更新日期:2020-05-29 20:30
本发明专利技术公开一种基于听觉模型和信源方位的多通路语音降噪方法。该方法将多通路带噪语音信号进行通路分离,导入听觉模型映射成为各个独立通路的语谱灰度图;将语谱灰度图输入方向识别神经网络模型,得到各个独立通路的语声信源的方位;进一步,将语谱灰度图导入相应信源方位的降噪神经网络,降噪神经网络对语谱图有语音部分与无语音部分实施分区降噪处理;将各个独立通路的降噪后语谱图进行逆变换,再进行通路合并,最终获得降噪后的多通路语音信号。本方法利用人类听觉模型将带噪语音信号映射到初级感知域进行处理,更加符合人类生理感知;此外,对不同空间方位的语声信源实施分区域个性化降噪策略,有助于提高降噪的精准度。

A multi-channel speech noise reduction method based on auditory model and source orientation

【技术实现步骤摘要】
一种基于听觉模型和信源方位的多通路语音降噪方法
本专利技术属于语音降噪
,涉及一种基于听觉模型和信源方位的多通路语音降噪方法。
技术介绍
语言是人与人之间交流的重要媒介。伴随着电子技术与通信技术的飞速发展,语音信号拥有丰富的存储媒介与传播途径。相较于书写或键入文字,语音凭借着输出信息的高效性与快捷性已经成为物联网的重要入口。人类日常生活工作的声环境十分复杂,如何获取高质量的语音信号成为亟待解决的行业难题。在噪声环境下直接取得高质量的语音信号需要昂贵的专业录音设备与严苛的录制环境。因此,一个普适性的方法是对录制得到的带噪语音信号进行后期降噪处理。常用的语音降噪处理手段有谱减法、维纳滤波法、自适应滤波法等,这些方法直接作用于带噪语音信号,针对特定类型的噪声能够得到一定的降噪效果。然而,人对于噪声的感知是生理与心理的共同作用,传统的语音降噪方法仅针对语音信号自身性质进行处理,没有考虑与人相关的因素。目前,为了满足人们日益增长的美好生活需要,高质量的立体声重放技术得到了飞速发展。立体声重放的基础是与之匹配的多通路音源。多通路信号可以由分别布置的多个传声器分别拾音然后合并得到,也可以由传声器阵列对同一声源录制得到。目前,尚无成熟的算法可以实现对噪声环境下录制得到的多通路语音信号的有效降噪。
技术实现思路
本专利技术为了解决上述现有多通路语音信号降噪方法的缺陷,提出了一种基于听觉模型和信源方位的多通路语音降噪方法。本专利技术将时域多通路带噪语音信号通过听觉模型映射到初级感知域进行处理,通过对各通路信号语声信源空间方位的判断,以及对信号有语音部分和无语音部分的划分,引入神经网络实现了对多通路带噪语音信号的分时段、分空间的精细化高效降噪。本专利技术的目的通过以下技术方案实现。一种基于听觉模型和信源方位的多通路语音降噪方法,包括如下步骤:步骤1,将多通路带噪语音信号进行通路分离,得到各通路上独立的带噪语音信号;步骤2,将各通路信号导入听觉模型映射到初级感知域,进一步依据幅值映射成为语谱灰度图;步骤3,将语谱灰度图输入方向识别神经网络模型,得到语声信源的空间方位;步骤4,将语谱灰度图输入相应信源方位的降噪神经网络,对有语音部分和无语音部分分别实施Non-localMeans非局部均值降噪;步骤5,对步骤2得到的每个通路分别实施步骤3到步骤4,得到每个通路的降噪后语谱图;步骤6:将每个通路的降噪后语谱图进行逆变换,然后进行通路合并,得到降噪后的多通路语音信号。进一步地,步骤2具体包括:步骤201:将各通路上独立的带噪语音信号进行短时傅里叶变换,得到M×N的时频矩阵x,其中N为短时傅里叶变换总帧数,M为每一帧包含的采样点数;步骤202:将时频矩阵x导入听觉模型进行幅度调整,听觉模型的输出为M×N的矩阵X,所述的听觉模型如公式(1)、(2)所示:(1)式中,G为权重(0<G<1);n为短时傅里叶变换的帧数;k为帧长,即各帧包含的采样点数;fk为每一帧内各采样点对应的频率,单位为Hz;A(fk)为频率权重调整系数,具体计算方法如(2)式所示;步骤203:将听觉模型的输出结果X转换为M×N尺寸的灰度语谱图,转换方法如公式(3)所示:(3)式中,α为灰度语谱图的灰度阶数;Xmin为听觉模型输出矩阵X的最小取值;Xmax为听觉模型输出矩阵X的最大取值;β为灰度语谱图各像素点的灰度值。进一步地,步骤3所述的方向识别神经网络模型为卷积神经网络模型,训练过程具体为:步骤301:将方位已知的单通路带噪语音信号Xi的语谱灰度图与对应语声信源的空间方位Li作为训练方向识别神经网络模型的输入;其中,方位Li为μ位的01二值序列,二值序列上各位置元素与μ个语声信源方向一一对应,根据带噪语音信号Xi的语声信源方向将二值序列Li对应位置元素的值置为1,其余位置元素的值置为0,以此类推;步骤302:方向识别神经网络模型输出语音信号Xi的语声信源方向L′i,L′i同样为μ位的01二值序列;步骤303:神经网络模型的损失函数为模型输出的方向序列L′i与实际方向序列Li间的均方差值,通过使损失函数最小化优化卷积神经网络参数,对神经网络进行训练,均方差值计算方法如公式(4)所示:(4)式中,σ为语声信源方向序列的各位元素;μ为语声信源方向序列的长度;MSEdir为计算得到的方向序列均方差值。进一步地,步骤3所述的方向识别神经网络模型训练过程,其中步骤301中单通路带噪语音信号采集方式具体为:步骤3011:在噪声场内使用单通路传声器对某一定点语音声源进行样本采集,传声器与声源处于同一高度且相对距离固定,将传声器对准声源作为初始偏差0°位置,采集带噪语音片段;步骤3012:在0°位置采集到足够多的带噪语音片段后,水平旋转传声器θ,此时声源相对传声器轴向偏离θ,采集带噪语音片段;步骤3013:以θ为间隔在ρ个位置(ρ=360°/θ)取得足够的带噪语音样本,以偏转角度作为标签,对应角度采集的带噪语音片段作为样本对方向识别神经网络进行训练。进一步地,步骤4所述的降噪神经网络采用Non-localMeans非局部均值降噪法,对灰度语谱图有语音部分与无语音部分分别进行图像降噪处理,训练过程包括以下步骤:步骤401:对灰度语谱图进行有语音部分与无语音部分划分,分别采用不同的降噪神经网络进行处理;步骤402,将待降噪部分图像像素点设为P(ε),,构建以P(ε)点为中心的λ×λ(λ为大于1的奇数)像素点方阵Nei(ε),称为P(ε)点的邻域;步骤403,在待降噪部分图像最外周增补值为0的像素点,增补周数为γ=(λ-1)/2;步骤404,遍历图像,对于图像内任一像素点根据点邻域与Nei(ε)间的差异更新P(ε)点的灰度值,计算方法如公式(5)、(6)所示:(5)式中,P′(ε)为更新后的像素点灰度值;为原图象内任一像素点灰度值;为权值函数,具体计算方法如(6)式所示;(6)式中,λ为邻域像素点方阵尺寸;h为Non-localMeans降噪算法衰减因子;Nei(ε)、分别为点P(ε)、的邻域;步骤405,根据步骤404将图像中所有像素点灰度值进行更新,即完成了待降噪部分图像的降噪处理;步骤406,以某一方向的带噪语音灰度语谱图和对应的无噪语音灰度语谱图作为降噪神经网络的输入,对降噪神经网络模型进行训练,训练得到合适的Non-localMeans降噪衰减因子h1、h2,使得降噪后语谱图与无噪语谱图间像素灰度均方误差最小,最终训练得到不同方向的μ个降噪神经网络,训练流程如公式(7)所示:(7)式中,h1、h2分别为对语谱图有语音部分和无语音部分Non-localMeans降噪的衰减因子;为降噪后语谱图像素点灰度;为无噪语音语谱图像素点灰度;M、N为语谱图尺寸;为训练得到的最优衰减因子。<本文档来自技高网...

【技术保护点】
1.一种基于听觉模型和信源方位的多通路语音降噪方法,其特征在于包括以下步骤:/n步骤1,将多通路带噪语音信号进行通路分离,得到各通路上独立的带噪语音信号;/n步骤2,将各通路带噪语音信号导入听觉模型,映射到初级感知域,进一步映射成为语谱灰度图;/n步骤3,将语谱灰度图输入方向识别神经网络模型,得到语声信源的空间方位;/n步骤4,将语谱灰度图输入对应信源方位的降噪神经网络,对有语音部分和无语音部分分别实施Non-local Means非局部均值降噪;/n步骤5,对步骤2得到的每个通路语谱灰度图分别实施步骤3到步骤4,得到每个通路的降噪后语谱图;/n步骤6:将每个通路的降噪后语谱图进行逆变换,然后进行通路合并,得到降噪后的多通路语音信号。/n

【技术特征摘要】
1.一种基于听觉模型和信源方位的多通路语音降噪方法,其特征在于包括以下步骤:
步骤1,将多通路带噪语音信号进行通路分离,得到各通路上独立的带噪语音信号;
步骤2,将各通路带噪语音信号导入听觉模型,映射到初级感知域,进一步映射成为语谱灰度图;
步骤3,将语谱灰度图输入方向识别神经网络模型,得到语声信源的空间方位;
步骤4,将语谱灰度图输入对应信源方位的降噪神经网络,对有语音部分和无语音部分分别实施Non-localMeans非局部均值降噪;
步骤5,对步骤2得到的每个通路语谱灰度图分别实施步骤3到步骤4,得到每个通路的降噪后语谱图;
步骤6:将每个通路的降噪后语谱图进行逆变换,然后进行通路合并,得到降噪后的多通路语音信号。


2.根据权利要求1所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤2具体包括:
步骤201:将各通路上独立的带噪语音信号进行短时傅里叶变换,得到M×N的时频矩阵x,其中N为短时傅里叶变换总帧数,M为每一帧包含的采样点数;
步骤202:将时频矩阵x导入听觉模型进行幅度调整,听觉模型的输出为M×N的矩阵X,所述的听觉模型如公式(1)、(2)所示:






(1)式中,G为权重(0<G<1);n为短时傅里叶变换的帧数;k为帧长,即各帧包含的采样点数;fk为每一帧内各采样点对应的频率,单位为Hz;A(fk)为频率权重调整系数,具体计算方法如(2)式所示;
步骤203:将听觉模型的输出结果X转换为M×N尺寸的灰度语谱图,转换方法如公式(3)所示:



(3)式中,α为灰度语谱图的灰度阶数;Xmin为听觉模型输出矩阵X的最小取值;Xmax为听觉模型输出矩阵X的最大取值;β为灰度语谱图各像素点的灰度值。


3.根据权利要求1所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤3所述的方向识别神经网络模型为卷积神经网络模型,训练过程具体为:
步骤301:将方位已知的单通路带噪语音信号Xi的语谱灰度图与对应语声信源的空间方位Li作为训练方向识别神经网络模型的输入;其中,方位Li为μ位的01二值序列,二值序列上各位置元素与μ个语声信源方向一一对应,根据带噪语音信号Xi的语声信源方向将二值序列Li对应位置元素的值置为1,其余位置元素的值置为0,以此类推;
步骤302:方向识别神经网络模型输出语音信号Xi的语声信源方向L′i,L′i同样为μ位的01二值序列;
步骤303:神经网络模型的损失函数为模型输出的方向序列L′i与实际方向序列Li间的均方差值,通过使损失函数最小化优化卷积神经网络参数,对神经网络进行训练,均方差值计算方法如公式(4)所示:



(4)式中,σ为语声信源方向序列的各位元素;μ为语声信源方向序列的长度;MSEdir为计算得到的方向序列均方差值。


4.根据权利要求3所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤301中单通路带噪语音信号采集过程具体为:
步骤3011:在噪声场内使用单通路传声器对其中一定点语音声源进行样本采集,传声器与声源处于同一高度且相对距离固定,将传声器对准声源作为初始偏差0°位置,采集带噪语音片段;
步骤3012:在0°位置采集到足够多的带噪语音片段后,水平旋转传声器θ,此时声源相对传声器轴向偏离θ,采集带噪语音片段;
步骤3013:以θ为间隔在ρ个位置(ρ=360°/θ)取得足够多的带噪语音样本,以偏转角度作为标签,对应角度采集的带噪语音片段作为样本,对方向识别神经网络进行训练。


5.根据权利要求1所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤4所述的降噪神经网络采用Non-localMeans非局部均值降噪法,对灰度语谱图的有语音部分与无语音部分分别进行图像降噪处理,训练过程包括以下步骤:...

【专利技术属性】
技术研发人员:杨子晖钟小丽宋昊
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1