语音分离方法和装置制造方法及图纸

技术编号:12399187 阅读:88 留言:0更新日期:2015-11-26 04:31
本发明专利技术实施例提供一种语音分离方法和装置,本实施例语音分离方法,包括:通过获得第一信号,根据第一信号确定初始理想二值掩蔽矩阵,根据初始理想二值掩蔽矩阵,对第一信号进行谐波补偿,得到谐波补偿后的分离语音信号,根据谐波补偿后的分离语音信号,对第一信号和第二信号进行滤波,得到目标分离语音信号,从而减少目标分离语音信号中能量空洞的产生,抑制了目标分离语音信号的扭曲。

【技术实现步骤摘要】

本专利技术实施例涉及信号处理
,尤其涉及一种语音分离方法和装置
技术介绍
语音信号处理作为一个近年来引人注目的研究领域,至今已经在大词汇量连续语 音识别、语音合成、语音通信等方面取得了一系列令人瞩目的成果。然而,现有的语音信号 处理技术不少都是在纯净语音或带弱噪声的语音环境下研发的,在比较嘈杂的环境中并不 总是能获得令人满意的效果,这在一定程度上限制了部分语音相关产品在实际生活中的应 用。因此,如何抑制或者消除背景噪音,从而分离出目标语音信号已经成为语音信号处理领 域中一个重要的研究方向。 计算听觉场景分析主要是基于听觉生理学和心理学领域的研究,采用声学掩蔽策 略进行语音分离,使得分离语音更符合人耳的感知特性。现有技术中,通常采用基于阈值的 理想二值掩蔽(Ideal Binary Mask,简称IBM)矩阵进行计算听觉场景分析,IBM矩阵是一 个维度与时频谱图相同的0-1矩阵,其中1对应语音主导时频单元,〇对应噪音主导时频单 元。在目标语音合成阶段,语音主导的时频单元能量全部被保留,噪音主导时频单元能量会 全部被拒绝。然而由于基于阈值的IBM矩阵的错误估计会造成部分语音主导的时频单元被 错误地拒绝,部分噪声主导的时频单元被错误地保留,从而导致在分离后的语音信号中产 生许多语音能量的空洞,从而在很大程度上扭曲了原语音信号。
技术实现思路
本专利技术实施例提供一种语音分离方法和装置,采用计算听觉场景分析和理想浮值 掩蔽策略获得分离语音信号,从而减少分离语音信号中能量空洞的产生,抑制了分离语音 信号的扭曲。 第一方面,本专利技术实施例提供一种语音分离方法,包括: 获得第一信号,所述第一信号包括语音信号和噪音信号; 根据所述第一信号确定初始理想二值掩蔽矩阵,所述初始理想二值掩蔽矩阵用于 区分所述第一信号包括的语音信号和噪音信号; 根据所述初始理想二值掩蔽矩阵,对所述第一信号进行谐波补偿,得到谐波补偿 后的分离语音信号; 根据所述谐波补偿后的分离语音信号,对所述第一信号和第二信号进行滤波,得 到目标分离语音信号。 在第一方面的第一种可能的实现方式中,所述根据所述第一信号确定初始理想二 值掩蔽矩阵,包括: 计算所述噪音信号的功率谱的平均值; 根据所述噪音信号的功率谱的平均值,确定构成所述初始理想二值掩蔽矩阵的所 有时频单元的值; 根据构成所述初始理想二值掩蔽矩阵的所有时频单元的值,确定所述初始理想二 值掩蔽矩阵。 根据第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述计算 所述噪音信号的功率谱的平均值,包括: 根据所述第一信号中用于估计噪音的帧数目和对所述第一信号进行傅里叶变换 之后第t帧、第k频段的频域信号的功率谱密度,计算所述噪音信号的功率谱的平均值,t是 大于或等于1的整数,k是大于或等于1的整数。 根据第一方面、第一方面的第一种至第二种可能的实现方式中的任意一种,在第 三种可能的实现方式中,所述根据所述初始理想二值掩蔽矩阵,对所述第一信号进行谐波 补偿,得到谐波补偿后的分离语音信号,包括 : 对所述初始理想二值掩蔽矩阵进行更新,得到更新后的二值掩蔽矩阵,所述更新 后的二值掩蔽矩阵用于净化所述目标分离语音信号; 根据所述更新后的二值掩蔽矩阵,对所述第一信号进行谐波补偿,得到谐波补偿 后的分离语音信号。 根据第一方面的第三种可能的实现方式,在第四种可能的实现方式中,对所述初 始理想二值掩蔽矩阵进行更新,得到更新后的二值掩蔽矩阵,包括 : 根据当前迭代次数和最大迭代次数,对所述初始理想二值掩蔽矩阵中的语音主导 的时频单元的值进行更新; 根据对所述初始理想二值掩蔽矩阵中的语音主导的时频单元的值进行更新的结 果,得到更新后的二值掩蔽矩阵。 根据第一方面的第三种或第四种可能的实现方式,在第五种可能的实现方式中, 所述根据所述更新后的二值掩蔽矩阵,对所述第一信号进行谐波补偿,得到谐波补偿后的 分离语音信号,包括: 根据所述更新后的二值掩蔽矩阵,得到所述第一信号的初始分离语音信号; 对所述初始分离语音信号进行处理,得到理想浮值掩蔽矩阵; 根据所述理想浮值掩蔽矩阵,对所述第一信号进行谐波补偿,得到谐波补偿后的 分离语音信号。 根据第一方面的第五种可能的实现方式,在第六种可能的实现方式中, 所述对所述初始分离语音信号进行处理,得到理想浮值掩蔽矩阵,包括: 对所述初始分离语音信号进行逆傅里叶变换,获得与所述初始分离语音信号相应 的时域信号; 对所述初始分离语音信号相应的时域信号进行半波整流处理,获得半波整流后的 时域信号; 对所述半波整流后的时域信号进行短时傅里叶变换,并计算经过所述短时傅里叶 变换后得到的功率谱密度; 根据所述短时傅里叶变换后得到的功率谱密度,对所述初始分离语音信号进行平 滑处理,以获得平滑处理后的结果; 根据所述噪音信号的功率谱的平均值和所述平滑处理后的结果,得到所述理想浮 值掩蔽矩阵。 根据第一方面的第六种可能的实现方式,在第七种可能的实现方式中,所述根据 所述谐波补偿后的分离语音信号,对所述第一信号和第二信号进行滤波,得到所述目标分 离语音信号,包括: 根据所述谐波补偿后的分离语音信号,确定对所述第一信号和第二信号进行滤波 时采用的主通道的滤波器和副通道的滤波器; 根据对所述第一信号和第二信号进行滤波时采用的主通道的滤波器和副通道的 滤波器,对所述第一信号和第二信号进行滤波,得到所述目标分离语音信号。 第二方面,本专利技术实施例提供一种语音分离装置,包括: 获得模块,用于获得第一信号,所述第一信号包括语音信号和噪音信号; 确定模块,用于根据所述第一信号确定初始理想二值掩蔽矩阵,所述初始理想二 值掩蔽矩阵用于区分所述第一信号包括的语音信号和噪音信号; 谐波补偿模块,用于根据所述初始理想二值掩蔽矩阵,对所述第一信号进行谐波 补偿,得到谐波补偿后的分离语音信号; 滤波模块,用于根据所述谐波补偿后的分离语音信号,对所述第一信号和第二信 号进行滤波,得到目标分离语音信号。 在第二方面的第一种可能的实现方式中,所述确定模块,具体用于计算所述噪音 信号的功率谱的平均值;根据所述噪音信号的功率谱的平均值,确定构成所述初始理想二 值掩蔽矩阵的所有时频单元的值;根据构成所述初始理想二值掩蔽矩阵的所有时频单元的 值,确定所述初始理想二值掩蔽矩阵。 根据第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述确定 模块,具体用于根据所述第一信号中用于估计噪音的帧数目和对所述第一信号进行傅里叶 变换之后第t帧、第k频段的频域信号的功率谱密度,计算所述噪音信号的功率谱的平均 值,t是大于或等于1的整数,k是大于或等于1的整数。 根据第二方面、第二方面的第一种至第二种可能的实现方式中的任意一种,在第 三种可能的实现方式中,所述谐波补偿模块,具体用于对所述初始理想二值掩蔽矩阵进行 更新,得到更新后的二值掩蔽矩阵,所述更新后的二值掩蔽矩阵用于净化所述目标分离语 音信号;根据所述更新后的二值掩蔽矩阵,对所述第一信号进行谐波补偿,得到谐波补偿后 的分离语音信号。 根据第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述谐波 补偿模块,具体用于根据当前迭代次数和最大迭代次数,对所述初始理想二值本文档来自技高网...

【技术保护点】
一种语音分离方法,其特征在于,包括:获得第一信号,所述第一信号包括语音信号和噪音信号;根据所述第一信号确定初始理想二值掩蔽矩阵,所述初始理想二值掩蔽矩阵用于区分所述第一信号包括的语音信号和噪音信号;根据所述初始理想二值掩蔽矩阵,对所述第一信号进行谐波补偿,得到谐波补偿后的分离语音信号;根据所述谐波补偿后的分离语音信号,对所述第一信号和第二信号进行滤波,得到目标分离语音信号。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨小洪肖玮梁山刘文举
申请(专利权)人:华为技术有限公司中国科学院自动化研究所
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1