一种语音分离方法及装置制造方法及图纸

技术编号:19697530 阅读:36 留言:0更新日期:2018-12-08 12:40
本发明专利技术公开了一种语音分离方法,包括:获取各个信号通道的待分离语音数据;针对每一预设的采样时刻,利用盲源分离算法对待分离语音数据进行分离处理,得到P个分离信号;计算当前分离信号与P个分离信号中除当前分离信号之外的其他分离信号之间的交叉残留系数;并判断交叉残留系数是否小于第一预设阈值;若否,利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,并将处理后的分离信号与所有交叉残留系数不小于第一预设阈值的分离信号的集合作为目标分离信号;若是,将分离信号作为目标分离信号。本发明专利技术实施例还提供了一种语音分离装置。应用本发明专利技术实施例,可以降低语音信号中的交叉信号残留。

【技术实现步骤摘要】
一种语音分离方法及装置
本专利技术涉及一种语音处理方法及装置,更具体涉及一种语音分离方法及装置。
技术介绍
在语音处理领域,通常会遇到对多人同时说话的语音信号进行语音分离处理,进而得到每个人的语音信号,如何获得更好的声源分离的效果,即分离后的其他说话人的残留语音更少。这一问题在学术上称为“鸡尾酒会问题”,是长久以来困扰人机语音交互应用的难题,迄今仍没有在实际环境中稳定可用的产品或者方案。目前,常用的语音分离的算法主要包括:神经网络算法、最大熵算法、最小互信息算法、最大似然算法、独立分量分析算法、遗传算法、机器学习、基于麦克风阵列的波束形成算法等。但是,由于现有算法的基础理论限制,导致现有算法普遍分离效果不理想,交叉信号残留较大。
技术实现思路
本专利技术所要解决的技术问题在于提供了一种语音分离方法及装置,以解决现有技术中交叉信号残留较大的技术问题。本专利技术是通过以下技术方案解决上述技术问题的:本专利技术实施例提供了一种语音分离方法,所述方法包括:获取各个信号通道的待分离语音数据,其中,所述待分离语音数据含有至少两个人同时说话时产生的语音数据;针对每一预设的采样时刻,利用盲源分离算法对所本文档来自技高网...

【技术保护点】
1.一种语音分离方法,其特征在于,所述方法包括:获取各个信号通道的待分离语音数据,其中,所述待分离语音数据含有至少两个人同时说话时产生的语音数据;针对每一预设的采样时刻,利用盲源分离算法对所述待分离语音数据进行分离处理,得到P个分离信号;针对每一个分离信号,计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;并判断所述交叉残留系数是否小于第一预设阈值;若否,利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,并将处理后的分离信号与所有交叉残留系数小于第一预设阈值的分离信号的集合作为目标分离信号;若是,将所述分离信号作为目标分...

【技术特征摘要】
1.一种语音分离方法,其特征在于,所述方法包括:获取各个信号通道的待分离语音数据,其中,所述待分离语音数据含有至少两个人同时说话时产生的语音数据;针对每一预设的采样时刻,利用盲源分离算法对所述待分离语音数据进行分离处理,得到P个分离信号;针对每一个分离信号,计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;并判断所述交叉残留系数是否小于第一预设阈值;若否,利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,并将处理后的分离信号与所有交叉残留系数小于第一预设阈值的分离信号的集合作为目标分离信号;若是,将所述分离信号作为目标分离信号。2.根据权利要求1所述的一种语音分离方法,其特征在于,所述盲源分离算法包括:非线性主分量分析、独立分量分析、神经网络算法、最大熵算法、最小互信息算法、最大似然算法中的一种或多个的组合。3.根据权利要求1所述的一种语音分离方法,其特征在于,所述利用盲源分离算法对所述待分离语音数据进行分离处理,包括:针对各个所述待分离语音数据,利用NPCA准则建立针对所述待分离语音数据的代价函数其中,J(W)为第t时刻的分离矩阵的代价;E{.}为期望运算函数;x(t)为各个麦克风对应的信号通道所观测到的观测信号;W为分离矩阵;(.)T为转置运算;为非线性函数;t为当前时刻;对所述代价函数进行最小化处理,得到分离矩阵的迭代估计为:W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],其中,W(t+1)为第t+1时刻的分离矩阵;W(t)为第t时刻的分离矩阵;θ为迭代步长,且θ(t)=θ(t-1)-ρ*▽θ*(J(t)|θ=θ(t-1)),θ(t)为第t时刻的迭代步长,θ(t-1)为第t-1时刻的迭代步长,ρ为常数,▽θ为梯度函数,J(t)为第t时刻的代价;z(t)为非线性函数,且利用公式,W(t+1)=W(t)+θ*z(t)[xT(t)-zT(t)W(t)],迭代计算下一时刻的分离矩阵,直至所述分离矩阵收敛,得到各个待分离语音数据的目标分离矩阵;利用公式,y(t)=Wx(t),得到所述待分离语音数据的分离后的信号,其中,y(t)为当前观测信号的分离后的信号。4.根据权利要求1所述的一种语音分离方法,其特征在于,所述计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数,包括:利用公式,计算当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数,其中,为第i个通道的当前分离信号与所述P个分离信号中除所述当前分离信号之外的其他分离信号之间的交叉残留系数;i为当前分离信号的通道的编号;j为所述P个分离信号中除所述当前分离信号之外的其他分离信号的通道的编号;ai,k为第i个通道的分离信号与第k个分离信号之间的混合系数;aj,k为第j个通道的分离信号与第k个分离信号之间的混合系数;yk为第k个通道的声源信号;∑为求和函数。5.根据权利要求1所述的一种语音分离方法,其特征在于,所述利用回声消除算法对所有交叉残留系数不小于第一预设阈值的分离信号,进行回声消除处理,包括:针对所有交叉残留系数不小于第一预设阈值的分离信号中的每一分离信号,将当前分离信号作近端信号;将交叉残留系数不小于第一预设阈值的分离信号中除所述当前分离信号之外的其他信号作为远端信号;利用公式,获取误差信号;其中,e(n)为误差信号;d(n)为理想输出信号;N为每一音频帧对应的时长,其取值为滤波器长度;k为音频帧中采样点的序号;为第n次迭代时第k个采样点对应的滤波器系数;n为迭代次数;x(n-k)为第n-k次迭代时的观测信号;利用公式,更新迭代步长,其中,μ(n)为第n次迭代时的迭代步长;为近端信号的方差;N为每一音频帧对应的时长,其取值为滤波器长度,且k∈(0,N);x(n-i)为第n-i次迭代时的观测信号;Λ(n)为第l次迭代时的失调;利用公式,更新滤波器的系数的估计值,其中,为第n+1次迭代时的滤波器系数的估计值;μ(n)为迭代步长;为第l次迭代时滤波器系数的估计值;N为每一音频帧对应的时长,其取值为滤波器长度;x(n-i)为第n-i次迭代时的观测信号;x*(n-k)为第n-k次迭代时的观测信号共轭值;||为求模函数;利用公式,d(n)=v(n)+∑kwk(n)x(n-k),计算第n次迭代时的期望信号,其中,v(n)为近端信号;wk(n)为第n次迭代时第k个采样点对应的滤波器系数的理论值;x(n-k)为第n-k次迭代时的观测信号;判断第n次迭代时的期望信号是否收敛,若是,返回执行所述将当前分离信号作近端信号的步骤;若否,将所述第n次迭代时的期望信号作...

【专利技术属性】
技术研发人员:代金良
申请(专利权)人:北京三听科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1