【技术实现步骤摘要】
一种基于空域相关性的二维时频掩模估计建模方法
本专利技术涉及语音信号分离处理
尤其涉及一种基于空域相关性的二维时频掩模估计建模方法。
技术介绍
时频掩模是语音分离常用的手段目标,时频掩模表征语音信号在时频域内存在与否的状态矩阵。理想时频掩模保留了混合信号中由目标语音主导的时频分量,去除由噪声主导的时频点分量,从而实现目标语音信号和噪声信号的主要成分的分离。常见的时频掩模有理想二值掩模和理想浮值掩模,前者的状态矩阵中的每个元素取值仅为0或1,表示各时频点上语音信号存在与否的硬性判决;后者采用0和模为1的单位复数表示语音存在与否。理想二值掩模为硬判决掩模分离,在很大程度上容易造成频谱丢失;理想浮值掩模则考虑了空域信息对于提高语音的感知质量的重要作用。研究表明空域信息对于提高语音的感知质量具有重要作用,但是理想浮值掩模的学习难度也相对较大,目前尚未广泛应用到监督性语音分离中。目前大部分时频掩模估计方法也只是考虑了单个频点上的支配情况,根据单个频点的空域信息判断时频点被哪个声源支配。由于语音频谱存在二维相关性,它使得相邻频点支配声源之间也存在某种相似性,而传统的方法忽略了这种相似性。空域信息是指示目标语音源的基本标签且空域信息散布在各对麦克接收信号的频域相位差上。因此,它可以在频域指示目标源的能量分布状况。基于空域相关性的时频掩膜估计方法充分利用了空域信息,通过将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,精确估计语音源的掩模。
技术实现思路
本专利技术的目的在于克服现有时频掩膜技术中忽略了空域相关性的缺陷,试图以空域信息为特征,将时间和频率两 ...
【技术保护点】
1.一种基于空域相关性的二维时频掩模估计建模方法,包括:步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K‑1)/2,K表示阵列拥有麦克的数量;步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差;步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;步骤九、根据以上二维交织建模表示出模型的整个参数集;步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。
【技术特征摘要】
1.一种基于空域相关性的二维时频掩模估计建模方法,包括:步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K-1)/2,K表示阵列拥有麦克的数量;步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差;步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;步骤九、根据以上二维交织建模表示出模型的整个参数集;步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。2.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤三中,所述计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差的操作包括:在给定t时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差为:其中∠(.)表示求取复数相位的操作,m表示麦克的索引;在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克上的相位差组成一个向量集,以此表示声源的空域特征。3.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤四中,所述计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差包括:在t时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;通过几何关系推导出此条件下的麦克风之间相位差为:其中,三维单位矢量γ表示声源的入射方向,rk表示声源的间距,c表示声速,ζk表示从第k个麦克到第一个麦克之间的单位矢量。4.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离包括:将一般时频点和被完全支配频点相位差进行取绝对值操作;再进行取差的绝对值进行平方和的累加后求取均值;此均值类似于正态分布中的均值μ。求得新定义的频点到目标声源的距离为:其中F(·)表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率。5.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤六中,所述采用类比于正态分布的方法定义频点被目标声源支配的概率包括:根据步骤五得到的频点到目...
【专利技术属性】
技术研发人员:许春冬,龙清华,应冬文,许瑞龙,周静,
申请(专利权)人:江西理工大学,
类型:发明
国别省市:江西,36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。