The embodiment of the invention discloses a separation method and device for multi-person voice, which is used to realize the separation between voice and voice in the multi-person voice scene. The method is based on the computer vision technology in the field of Artificial Intelligence AI. The embodiment of the invention provides a separation method of multi voice, which includes: extracting the mixed voice features from the mixed voice signals to be separated, mixing n human voices in the mixed voice signals, and the n is a positive integer greater than or equal to 2; using the generation countermeasure network model to advance the mixed voice features The row masking coefficient is extracted to obtain the masking matrix corresponding to N kinds of human voices; the generated countermeasure network model is used to separate the masking matrix corresponding to N kinds of human voices and the mixed speech signal, and the N kinds of separated speech signals corresponding to N kinds of human voices are output.
【技术实现步骤摘要】
一种多人语音的分离方法和装置本申请为2018年8月9日提交中国专利局、申请号为201810904488.9、专利技术名称为“一种多人语音的分离方法和装置”的中国专利申请的分案申请。
本专利技术涉及人工智能(ArtificialIntelligence,AI)领域,尤其涉及一种多人语音的分离方法和装置。
技术介绍
在嘈杂的声学环境中,比如在鸡尾酒会中,往往同时存在着多个不同的人声以及其他杂音。在这种声学环境下,人类的听觉系统能一定程度地听清楚目标语言,而机器在这方面的能力还远不如人类。因此,如何在多个人声混杂的声学环境中分离出目标语音一直是语音信号处理领域的重要研究方向。现有技术提供的语音降噪方案主要适用于语音和噪声的分离,由于语音和噪声的特性差别很大,现有语音降噪方案已经能很好地完成语音降噪任务。而由于不同说话人的语音特性非常接近,语音分离的技术难度明显大于语音降噪。如何将语音和语音进行分离,仍是未解决的问题。
技术实现思路
本专利技术实施例提供了一种多人语音的分离方法和装置,用于实现在多人语音场景下的语音与语音之间的分离。本专利技术实施例提供以下技术方案:一方面,本专利技术实施例提供一种多人语音的分离方法,包括:从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有N种人声,所述N为大于或等于2的正整数;使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取,得到N种人声对应的掩蔽矩阵;使用所述生成对抗网络模型对所述N ...
【技术保护点】
1.一种多人语音的分离方法,其特征在于,包括:/n从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有第一种人声和第二种人声;/n将所述混合语音特征输入到生成网络模型中,由所述生成网络模型进行掩蔽系数提取,得到所述第一种人声对应的第一掩蔽矩阵、所述第二种人声对应的第二掩蔽矩阵;/n使用所述生成网络模型对所述第一掩蔽矩阵和所述混合语音信号进行相乘计算,以得到所述第一种人声对应的第一分离语音信号;/n使用所述生成网络模型对所述第二掩蔽矩阵和所述混合语音信号进行相乘计算,以得到与所述第二种人声对应的第二分离语音信号。/n
【技术特征摘要】
1.一种多人语音的分离方法,其特征在于,包括:
从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有第一种人声和第二种人声;
将所述混合语音特征输入到生成网络模型中,由所述生成网络模型进行掩蔽系数提取,得到所述第一种人声对应的第一掩蔽矩阵、所述第二种人声对应的第二掩蔽矩阵;
使用所述生成网络模型对所述第一掩蔽矩阵和所述混合语音信号进行相乘计算,以得到所述第一种人声对应的第一分离语音信号;
使用所述生成网络模型对所述第二掩蔽矩阵和所述混合语音信号进行相乘计算,以得到与所述第二种人声对应的第二分离语音信号。
2.根据权利要求1所述的方法,其特征在于,所述生成网络模型属于生成对抗网络模型的一部分,所述生成对抗网络模型还包括:判别网络模型,所述从待分离的混合语音信号中提取出混合语音特征之前,所述方法还包括:
从样本数据库中获取混合语音样本和干净语音样本,所述混合语音样本中混合有第一样本人声和第二样本人声;
从所述混合语音样本中提取出混合语音样本特征;
将所述混合语音样本特征输入到所述生成网络模型中,由所述生成网络模型进行掩蔽系数提取,得到所述第一样本人声对应的第一样本掩蔽矩阵、所述第二样本人声对应的第二样本掩蔽矩阵;
使用所述生成网络模型对所述第一样本掩蔽矩阵和所述混合语音样本进行相乘计算,以得到所述第一样本人声对应的第一分离语音样本,使用所述生成网络模型对所述第二样本掩蔽矩阵和所述混合语音样本进行相乘计算,以得到所述第二样本人声对应的第二分离语音样本;
使用所述第一分离语音样本、所述第二分离语音样本、所述混合语音样本和所述干净语音样本,对所述生成网络模型和所述判别网络模型进行交替训练。
3.根据权利要求2所述的方法,其特征在于,所述使用所述第一分离语音样本、所述第二分离语音样本、所述混合语音样本和所述干净语音样本,对所述生成网络模型和所述判别网络模型进行交替训练,包括:
在本次训练所述判别网络模型时,固定所述生成网络模型;
使用所述第一分离语音样本、所述第二分离语音样本、所述混合语音样本和所述干净语音样本获取所述判别网络模型的损失函数;
通过最小化所述判别网络模型的损失函数,优化所述判别网络模型;
在下一次训练所述生成网络模型时,固定所述判别网络模型;
使用所述第一分离语音样本、所述第二分离语音样本、所述混合语音样本和所述干净语音样本获取所述生成网络模型的损失函数;
通过最小化所述生成网络模型的损失函数,优化所述生成网络模型。
4.根据权利要求3所述的方法,其特征在于,所述使用所述第一分离语音样本、所述第二分离语音样本、所述混合语音样本和所述干净语音样本获...
【专利技术属性】
技术研发人员:陈联武,于蒙,钱彦旻,苏丹,俞栋,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。