一种基于空域相关性的二维时频掩模估计建模方法技术

技术编号:20047554 阅读:33 留言:0更新日期:2019-01-09 05:01
本发明专利技术涉及一种基于空域相关性的二维时频掩模估计建模方法,包括:针对麦克风阵列采集到的语音信号;计算某时频点下某对麦克风之间相位差以及被目标声源支配情况下相位差;由两相位差定义频点到目标声源的距离;采用类正态分布法计算此频点被目标声源支配的概率;将频点被目标声源支配的转移概率在时间、频率维度进行独立展开、分析;进行空域相关性时频交织建模;表示出此二维交织模型的整体参数集;表示出全局概率密度函数,将建模问题转换为按极大似然准则估计整体参数集,并精确估计语音源的掩模。该方法以空域信息为特征,将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,准确估计语音源的掩模,得到很好的语音分离效果。

【技术实现步骤摘要】
一种基于空域相关性的二维时频掩模估计建模方法
本专利技术涉及语音信号分离处理
尤其涉及一种基于空域相关性的二维时频掩模估计建模方法。
技术介绍
时频掩模是语音分离常用的手段目标,时频掩模表征语音信号在时频域内存在与否的状态矩阵。理想时频掩模保留了混合信号中由目标语音主导的时频分量,去除由噪声主导的时频点分量,从而实现目标语音信号和噪声信号的主要成分的分离。常见的时频掩模有理想二值掩模和理想浮值掩模,前者的状态矩阵中的每个元素取值仅为0或1,表示各时频点上语音信号存在与否的硬性判决;后者采用0和模为1的单位复数表示语音存在与否。理想二值掩模为硬判决掩模分离,在很大程度上容易造成频谱丢失;理想浮值掩模则考虑了空域信息对于提高语音的感知质量的重要作用。研究表明空域信息对于提高语音的感知质量具有重要作用,但是理想浮值掩模的学习难度也相对较大,目前尚未广泛应用到监督性语音分离中。目前大部分时频掩模估计方法也只是考虑了单个频点上的支配情况,根据单个频点的空域信息判断时频点被哪个声源支配。由于语音频谱存在二维相关性,它使得相邻频点支配声源之间也存在某种相似性,而传统的方法忽略了这种相似性。空域信息是指示目标语音源的基本标签且空域信息散布在各对麦克接收信号的频域相位差上。因此,它可以在频域指示目标源的能量分布状况。基于空域相关性的时频掩膜估计方法充分利用了空域信息,通过将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,精确估计语音源的掩模。
技术实现思路
本专利技术的目的在于克服现有时频掩膜技术中忽略了空域相关性的缺陷,试图以空域信息为特征,将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,从而可以更加精确的估计出语音源的掩模。为了实现上述目的,本专利技术提出了一种基于空域相关性的二维时频掩模估计建模方法,包括:步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K-1)/2,K表示阵列拥有麦克的数量;步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差;步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;步骤九、根据以上二维交织建模表示出模型的整个参数集;步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。上述技术方案中,在步骤三中,所述计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差的操作包括:在给定t时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差为:其中∠(.)表示求取复数相位的操作,m表示麦克的索引;在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克上的相位差组成一个向量集,以此表示声源的空域特征。上述技术方案中,在步骤四中,所述计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差包括:在t时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;通过几何关系推导出此条件下的麦克风之间相位差为:其中,三维单位矢量γ表示声源的入射方向,rk表示声源的间距,c表示声速,ζk表示从第k个麦克到第一个麦克之间的单位矢量。上述技术方案中,在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离包括:将一般时频点和被完全支配频点相位差进行取绝对值操作;再进行取差的绝对值进行平方和的累加后求取均值;此均值类似于正态分布中的均值μ。求得新定义的频点到目标声源的距离为:其中F(·)表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率。上述技术方案中,在步骤六中,所述采用类比于正态分布的方法定义频点被目标声源支配的概率包括:根据步骤五得到的频点到目标声源的距离得到,频点被目标声源支配的概率为:其中,σ表示标准差。上述技术方案中,在步骤七中,所述将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率包括:根据频点被目标声源支配或被噪声支配的转移概率的马尔可夫链,在时间维度和频率维度进行分解分析;该马尔可夫链的时间转移概率λf,l是一个2×2矩阵,将其元素λf,l(i,j)表示为:将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为:上述技术方案中,在步骤八中,所述根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图包括:在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态;在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态,超过D个单位频率间隔相邻位置上的状态则被认为不相关了;进行二维图形绘制,横坐标代表时间也为帧序列,横向的箭头表示时间状态转移概率;纵坐标代表频带,其中g为频率子带的间隔。上述技术方案中,在步骤九中,所述根据以上二维交织建模表示出模型的整个参数集为:表示时间维度上状态转移概率的参数集;cD,l表示的是频率维度上状态转移概率的参数集;参数集中所有的频带都共享频率状态转移概率。上述技术方案中,在步骤十中,所述计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集,进一步包括:首先,给定一个参数集表示从序列中获取的模型参数估计值;对应的观察序列的概率密度函数表示为全局的概率密度函数为:其次,表示给定状态矩阵和参数集时的情况下观察值序列的似然度,表示为:其中表示一个因果窗内L个样本;对语音信号在每一个频率分量上提取对数幅度谱包络;对于一个频率分量上的对数幅度谱时间序列建立一个隐马尔科夫模型其中是其对应的状态序列,分别表示的是第帧语音的存在和缺失,对应语音和噪声两个状态;其中的表示的是频点被目标声源支配的概率:然后,是表示状态序列出现的先验概率的概率,高斯分量表示为:λf,l(i,j),cg,l(i,j)分别表示时间状态转移概率和频率状态转移概率。最后,将建模问题被实现为按照极大似然(MaximumLikelihood,ML)准则估计整体参数集其依据表示为上述技术方案中,在步骤十一中,所述将参数集的估计过程等价为以模型为基础的分类过程,将表示为:将参数集的过程使用等价原则等价为以模型为基础的分类过程,因此得到了语音掩膜的最佳估计。本专利技术的积极效果和优点在于:1.通过求取各对麦克接收信号的频域相位差,得到麦克风阵列空域信息,而空域信息对于提高语音的感知质量具有重要作用。2.本方法提出了一种基于空域相关性的二维时频掩模估计建模方法。将麦克风阵列的相位差即空域信息,频点被支配的状态转移概率的时间维度转移概率和频率维度转移概率三者综合一起运算,得到面向空域相关性的二维时频掩膜建模方法,最终实现空域掩膜的准确估计。附图说明图1为本发本文档来自技高网...

【技术保护点】
1.一种基于空域相关性的二维时频掩模估计建模方法,包括:步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K‑1)/2,K表示阵列拥有麦克的数量;步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差;步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;步骤九、根据以上二维交织建模表示出模型的整个参数集;步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。

【技术特征摘要】
1.一种基于空域相关性的二维时频掩模估计建模方法,包括:步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K-1)/2,K表示阵列拥有麦克的数量;步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差;步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;步骤九、根据以上二维交织建模表示出模型的整个参数集;步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。2.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤三中,所述计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差的操作包括:在给定t时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差为:其中∠(.)表示求取复数相位的操作,m表示麦克的索引;在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克上的相位差组成一个向量集,以此表示声源的空域特征。3.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤四中,所述计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差包括:在t时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;通过几何关系推导出此条件下的麦克风之间相位差为:其中,三维单位矢量γ表示声源的入射方向,rk表示声源的间距,c表示声速,ζk表示从第k个麦克到第一个麦克之间的单位矢量。4.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离包括:将一般时频点和被完全支配频点相位差进行取绝对值操作;再进行取差的绝对值进行平方和的累加后求取均值;此均值类似于正态分布中的均值μ。求得新定义的频点到目标声源的距离为:其中F(·)表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率。5.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤六中,所述采用类比于正态分布的方法定义频点被目标声源支配的概率包括:根据步骤五得到的频点到目...

【专利技术属性】
技术研发人员:许春冬龙清华应冬文许瑞龙周静
申请(专利权)人:江西理工大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1