当前位置: 首页 > 专利查询>索尼公司专利>正文

声源分离装置和方法以及程序制造方法及图纸

技术编号:20929311 阅读:22 留言:0更新日期:2019-04-20 12:34
本技术涉及能够实现更高分离性能的声源分离装置、方法和程序。该声源分离装置包括组合单元,该组合单元将预定声源的第一声源分离信号与声源的第二声源分离信号组合,第一声源分离信号由第一声源分离系统从混合声音信号中分离出来,第二声源分离信号由第二声源分离系统从混合声音信号中分离出来,在预定时间单位内,第二声源分离系统的分离性能不同于第一声源分离系统;并且输出通过所述组合获得的声源分离信号。本技术可应用于声源分离装置。

Sound Source Separation Device, Method and Procedure

The technology relates to sound source separation devices, methods and procedures capable of achieving higher separation performance. The sound source separation device includes a combination unit which combines the first sound source separation signal of a predetermined sound source with the second sound source separation signal of the sound source. The first sound source separation signal is separated from the mixed sound signal by the first sound source separation system, and the second sound source separation signal is separated from the mixed sound signal by the second sound source separation system within a predetermined time unit. The separation performance of the second sound source separation system is different from that of the first sound source separation system, and the sound source separation signal obtained by the combination is output. The technology can be applied to sound source separation device.

【技术实现步骤摘要】
【国外来华专利技术】声源分离装置和方法以及程序
本技术涉及声源分离装置、方法和程序,尤其涉及能够实现更高分离性能的声源分离装置、方法和程序。
技术介绍
传统上已知声源分离技术,其中从包括来自多个声源的声音的混合声音信号中提取目标声源的声音信号。作为这种声源分离技术,例如,提出了使用深度神经网络(DNN)的基于多通道维纳滤波器(MWF)的声源分离技术(参见例如非专利文献1)。在该声源分离技术中,通过DNN对混合声音信号进行振幅谱估计,以确定每个声源的振幅谱的估计值,并且通过最小均方误差方法从这些估计值和混合声音信号中确定目标声源的源信号。引文目录非专利文献非专利文献1:A.A.Nugraha、A.Liutkus和E.Vincent,"Multichannelmusicseparationwithdeepneuralnetworks."欧洲信号处理会议(EUSIPCO)。2016年。
技术实现思路
本专利技术要解决的问题然而,在上述技术中,难以以足够高的分离性能将目标声源的源信号与混合声音信号分离。例如,对于使用DNN的基于MWF的声源分离技术,随着DNN输出误差的降低,声源分离性能提高。然而,由于学习数据有限,并且由于问题复杂,DNN的学习通常是困难的,因此作为DNN的输出获得的振幅谱包括误差。这是分离性能恶化的原因之一。本技术是考虑到这种情况而设计的,并且能够实现更高的分离性能。问题的解决方案根据本技术的一个方面的声源分离装置包括组合单元,该组合单元将预定声源的第一声源分离信号与声源的第二声源分离信号组合,第一声源分离信号由第一声源分离系统从混合声音信号中分离出来,第二声源分离信号由第二声源分离系统从混合声音信号中分离出来,在预定时间单位内,第二声源分离系统分离性能不同于第一声源分离系统;并且输出通过组合获得的声源分离信号。组合单元可以被配置为基于组合参数将第一声源分离信号与第二声源分离信号线性组合。声源分离装置还可以包括组合参数确定单元,其基于是相对于第一声源分离信号获得的声源信号的概率和是相对于第二声源分离信号获得的声源信号的概率来确定组合参数。分离性能可以是SIR、SAR、SDR或ISR。第一声源分离系统的分离性能和第二声源分离系统的分离性能之间的量值关系可以被配置成随时间变化。第一声源分离系统可以与第二声源分离系统相同。第一声源分离系统可以是FNN、RNN和NMF中的任何一种,第二声源分离系统可以是FNN、RNN和NMF中的任何一种。根据本技术的一个方面的声源分离方法或程序包括以下步骤:将预定声源的第一声源分离信号与声源的第二声源分离信号组合,第一声源分离信号由第一声源分离系统从混合声音信号中分离出来,第二声源分离信号由第二声源分离系统从混合声音信号中分离出来,在预定时间单位内,第二声源分离系统的分离性能不同于第一声源分离系统;并且输出通过组合获得的声源分离信号。根据本技术的一个方面,将预定声源的第一声源分离信号与声源的第二声源分离信号组合,第一声源分离信号由第一声源分离系统从混合声音信号中分离出来,第二声源分离信号由第二声源分离系统从混合声音信号中分离出来,在预定时间单位内,第二声源分离系统的分离性能不同于第一声源分离系统;并且输出通过组合获得的声源分离信号。本专利技术的效果根据本技术的一个方面,可以实现更高的分离性能。应当注意,这里描述的效果不一定受到限制,并且可以是本公开中描述的任何一种效果。附图说明图1是示出声源分离的图。图2是示出声源分离装置的配置示例的图。图3是示出振幅谱估计单元的配置示例的图。图4是示出声源分离装置的配置示例的图。图5是示出组合参数和分离性能的图。图6是示出声源分离处理的流程图。图7是示出声源分离装置的配置示例的图。图8是示出声源分离处理的流程图。图9是示出声源分离装置的配置示例的图。图10是示出声源分离装置的配置示例的图。图11是示出计算机的配置示例的图。具体实施方式下面将参照附图描述应用本技术的实施例。<第一实施例><关于现有技术>例如,关于声源分离,通常每个声源如图1所示被分离。在该示例中,声音获取空间中存在J个声源s1至sJ。当由包括I个麦克风的麦克风阵列11获取来自J个声源中的每一个的声音时,获得I通道(I维)混合声音信号x,该混合声音信号x包括用于I个麦克风中的每一个,换句话说,用于I个通道中的每一个的声音获取信号x1至xI。当以这种方式获得的I通道混合声音信号x被输入声源分离器12时,声源分离器12对输入的混合声音信号x进行声源分离。随后,作为估计声源s1至sJ中的每一个的声音信号的结果,获得源信号^s1至^sJ。例如,源信号^s1是I通道信号(I维向量),其包括针对I个通道中的每一个获得的声源s1的声音信号。作为在声源分离器12中执行的声源分离技术,例如,使用DNN的基于MWF的声源分离技术是已知的。这里,将描述使用DNN的基于MWF的声源分离技术。应当注意,在下文中,每个信号由短期傅立叶变换(STFT)域表示。例如,假设I通道混合声音信号表示为x(k,m),其中k是频率区间,m是时间帧,并且作为J个声源中的第j个声源sj(其中1≤j≤J)的声音信号的源信号表示为sj(k,m)。混合声音信号x(k,m)和源信号sj(k,m)每个都包括I个通道中的每一个的复谱。在这种情况下,在MWF中,信号模型假设如下等式(1)。[等式1]应当注意,在等式(1)中,z(k,m)表示复高斯噪声,vj(k,m)表示功率谱密度,Rj(k,m)表示空间相关矩阵。此外,NC(0,νj(k,m)Rj(k,m))表示复数的高斯概率密度分布。在等式(1)中,除了目标第j个声源sj之外的声源的源信号sj′(k,m)之和是复高斯噪声z(k,m)。从这样的等式(1)可以看出,混合声音信号x(k,m)表示为目标声源sj的源信号sj(k,m)和复高斯噪声z(k,m)的总和。此外,假设源信号sj(k,m)彼此独立,目标声源sj的源信号sj(k,m)可以通过最小均方误差方法从混合声音信号x(k,m)中估计。这里,最小均方误差的估计值^sj,MWF(k,m),换句话说,通过最小均方误差方法的源信号sj(k,m)的估计值可以通过由以下等式(2)表示的计算来确定。应该注意的是,^sj,MWF(k,m)是一个信号,它包括I个通道中每一个的复谱。[等式2]其中,MWF由该等式(2)计算。然而,为了通过等式(2)确定作为实际源信号sj(k,m)的估计值的源信号^sj,MWF(k,m),有必要为J个声源中的每一个确定功率谱密度νj(k,m)和空间相关矩阵Rj(k,m)。关于使用DNN的基于MWF的声源分离技术,假设空间相关矩阵Rj(k,m)是时间不变的,换句话说,假设每个声源的位置不随时间变化,功率谱密度νj(k,m)和空间相关矩阵Rj(k,m)由DNN确定。更具体地,假设DNN的输出是{^s1(k,m),...,^sJ(k,m)},功率谱密度νj(k,m)和空间相关矩阵Rj(k,m)分别由以下等式(3)和(4)确定。[等式3][等式4]应当注意,在等式(3)中,^νj(k,m)表示功率谱密度νj(k,m)的估计值,而在等式(4)中,^Rj(k)表示空间相关矩阵Rj(k,m)的估计值。特别地,这里假设空本文档来自技高网...

【技术保护点】
1.一种声源分离装置,其包括:组合单元,其将预定声源的第一声源分离信号和所述声源的第二声源分离信号组合,所述第一声源分离信号通过第一声源分离系统从混合声音信号中分离出来,所述第二声源分离信号通过第二声源分离系统从所述混合声音信号中分离出来,在预定时间单位内,所述第二声源分离系统与所述第一声源分离系统的分离性能不同;并且输出通过所述组合获得的声源分离信号。

【技术特征摘要】
【国外来华专利技术】2016.09.09 JP 2016-176215;2017.04.14 JP 2017-080701.一种声源分离装置,其包括:组合单元,其将预定声源的第一声源分离信号和所述声源的第二声源分离信号组合,所述第一声源分离信号通过第一声源分离系统从混合声音信号中分离出来,所述第二声源分离信号通过第二声源分离系统从所述混合声音信号中分离出来,在预定时间单位内,所述第二声源分离系统与所述第一声源分离系统的分离性能不同;并且输出通过所述组合获得的声源分离信号。2.根据权利要求1所述的声源分离装置,其中所述组合单元基于组合参数线性组合所述第一声源分离信号和所述第二声源分离信号。3.根据权利要求2所述的声源分离装置,还包括:组合参数确定单元,其基于是相对于所述第一声源分离信号获得的声源信号的概率和是相对于所述第二声源分离信号获得的声源信号的概率来确定所述组合参数。4.根据权利要求1所述的声源分离装置,其中所述分离性能是SIR、SAR、SDR或ISR。5.根据权利要求1所述的声源分离装置,其中所述第一声源分离系统的分...

【专利技术属性】
技术研发人员:高桥直也光藤祐基斯特凡·乌利希迈克尔·伊南科尔托马斯·坎普
申请(专利权)人:索尼公司
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1