【技术实现步骤摘要】
一种基于听觉模型和信源方位的多通路语音降噪方法
本专利技术属于语音降噪
,涉及一种基于听觉模型和信源方位的多通路语音降噪方法。
技术介绍
语言是人与人之间交流的重要媒介。伴随着电子技术与通信技术的飞速发展,语音信号拥有丰富的存储媒介与传播途径。相较于书写或键入文字,语音凭借着输出信息的高效性与快捷性已经成为物联网的重要入口。人类日常生活工作的声环境十分复杂,如何获取高质量的语音信号成为亟待解决的行业难题。在噪声环境下直接取得高质量的语音信号需要昂贵的专业录音设备与严苛的录制环境。因此,一个普适性的方法是对录制得到的带噪语音信号进行后期降噪处理。常用的语音降噪处理手段有谱减法、维纳滤波法、自适应滤波法等,这些方法直接作用于带噪语音信号,针对特定类型的噪声能够得到一定的降噪效果。然而,人对于噪声的感知是生理与心理的共同作用,传统的语音降噪方法仅针对语音信号自身性质进行处理,没有考虑与人相关的因素。目前,为了满足人们日益增长的美好生活需要,高质量的立体声重放技术得到了飞速发展。立体声重放的基础是与之匹配的多通路音源。多通路信号可以由分别布置的多个传声器分别拾音然后合并得到,也可以由传声器阵列对同一声源录制得到。目前,尚无成熟的算法可以实现对噪声环境下录制得到的多通路语音信号的有效降噪。
技术实现思路
本专利技术为了解决上述现有多通路语音信号降噪方法的缺陷,提出了一种基于听觉模型和信源方位的多通路语音降噪方法。本专利技术将时域多通路带噪语音信号通过听觉模型映射到初级感知域进行处理,通过对各通 ...
【技术保护点】
1.一种基于听觉模型和信源方位的多通路语音降噪方法,其特征在于包括以下步骤:/n步骤1,将多通路带噪语音信号进行通路分离,得到各通路上独立的带噪语音信号;/n步骤2,将各通路带噪语音信号导入听觉模型,映射到初级感知域,进一步映射成为语谱灰度图;/n步骤3,将语谱灰度图输入方向识别神经网络模型,得到语声信源的空间方位;/n步骤4,将语谱灰度图输入对应信源方位的降噪神经网络,对有语音部分和无语音部分分别实施Non-local Means非局部均值降噪;/n步骤5,对步骤2得到的每个通路语谱灰度图分别实施步骤3到步骤4,得到每个通路的降噪后语谱图;/n步骤6:将每个通路的降噪后语谱图进行逆变换,然后进行通路合并,得到降噪后的多通路语音信号。/n
【技术特征摘要】
1.一种基于听觉模型和信源方位的多通路语音降噪方法,其特征在于包括以下步骤:
步骤1,将多通路带噪语音信号进行通路分离,得到各通路上独立的带噪语音信号;
步骤2,将各通路带噪语音信号导入听觉模型,映射到初级感知域,进一步映射成为语谱灰度图;
步骤3,将语谱灰度图输入方向识别神经网络模型,得到语声信源的空间方位;
步骤4,将语谱灰度图输入对应信源方位的降噪神经网络,对有语音部分和无语音部分分别实施Non-localMeans非局部均值降噪;
步骤5,对步骤2得到的每个通路语谱灰度图分别实施步骤3到步骤4,得到每个通路的降噪后语谱图;
步骤6:将每个通路的降噪后语谱图进行逆变换,然后进行通路合并,得到降噪后的多通路语音信号。
2.根据权利要求1所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤2具体包括:
步骤201:将各通路上独立的带噪语音信号进行短时傅里叶变换,得到M×N的时频矩阵x,其中N为短时傅里叶变换总帧数,M为每一帧包含的采样点数;
步骤202:将时频矩阵x导入听觉模型进行幅度调整,听觉模型的输出为M×N的矩阵X,所述的听觉模型如公式(1)、(2)所示:
(1)式中,G为权重(0<G<1);n为短时傅里叶变换的帧数;k为帧长,即各帧包含的采样点数;fk为每一帧内各采样点对应的频率,单位为Hz;A(fk)为频率权重调整系数,具体计算方法如(2)式所示;
步骤203:将听觉模型的输出结果X转换为M×N尺寸的灰度语谱图,转换方法如公式(3)所示:
(3)式中,α为灰度语谱图的灰度阶数;Xmin为听觉模型输出矩阵X的最小取值;Xmax为听觉模型输出矩阵X的最大取值;β为灰度语谱图各像素点的灰度值。
3.根据权利要求1所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤3所述的方向识别神经网络模型为卷积神经网络模型,训练过程具体为:
步骤301:将方位已知的单通路带噪语音信号Xi的语谱灰度图与对应语声信源的空间方位Li作为训练方向识别神经网络模型的输入;其中,方位Li为μ位的01二值序列,二值序列上各位置元素与μ个语声信源方向一一对应,根据带噪语音信号Xi的语声信源方向将二值序列Li对应位置元素的值置为1,其余位置元素的值置为0,以此类推;
步骤302:方向识别神经网络模型输出语音信号Xi的语声信源方向L′i,L′i同样为μ位的01二值序列;
步骤303:神经网络模型的损失函数为模型输出的方向序列L′i与实际方向序列Li间的均方差值,通过使损失函数最小化优化卷积神经网络参数,对神经网络进行训练,均方差值计算方法如公式(4)所示:
(4)式中,σ为语声信源方向序列的各位元素;μ为语声信源方向序列的长度;MSEdir为计算得到的方向序列均方差值。
4.根据权利要求3所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤301中单通路带噪语音信号采集过程具体为:
步骤3011:在噪声场内使用单通路传声器对其中一定点语音声源进行样本采集,传声器与声源处于同一高度且相对距离固定,将传声器对准声源作为初始偏差0°位置,采集带噪语音片段;
步骤3012:在0°位置采集到足够多的带噪语音片段后,水平旋转传声器θ,此时声源相对传声器轴向偏离θ,采集带噪语音片段;
步骤3013:以θ为间隔在ρ个位置(ρ=360°/θ)取得足够多的带噪语音样本,以偏转角度作为标签,对应角度采集的带噪语音片段作为样本,对方向识别神经网络进行训练。
5.根据权利要求1所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤4所述的降噪神经网络采用Non-localMeans非局部均值降噪法,对灰度语谱图的有语音部分与无语音部分分别进行图像降噪处理,训练过程包括以下步骤:...
【专利技术属性】
技术研发人员:杨子晖,钟小丽,宋昊,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。