一种多人语音的分离方法和装置制造方法及图纸

技术编号:22755986 阅读:31 留言:0更新日期:2019-12-07 04:21
本发明专利技术实施例公开了一种多人语音的分离方法和装置,用于实现在多人语音场景下的语音与语音之间的分离。该方法基于人工智能AI领域的计算机视觉技术,本发明专利技术实施例提供一种多人语音的分离方法,包括:从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有N种人声,所述N为大于或等于2的正整数;使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取,得到N种人声对应的掩蔽矩阵;使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离,输出与所述N种人声对应的N种分离语音信号。

A separation method and device of multi voice

The embodiment of the invention discloses a separation method and device for multi-person voice, which is used to realize the separation between voice and voice in the multi-person voice scene. The method is based on the computer vision technology in the field of Artificial Intelligence AI. The embodiment of the invention provides a separation method of multi voice, which includes: extracting the mixed voice features from the mixed voice signals to be separated, mixing n human voices in the mixed voice signals, and the n is a positive integer greater than or equal to 2; using the generation countermeasure network model to advance the mixed voice features The row masking coefficient is extracted to obtain the masking matrix corresponding to N kinds of human voices; the generated countermeasure network model is used to separate the masking matrix corresponding to N kinds of human voices and the mixed speech signal, and the N kinds of separated speech signals corresponding to N kinds of human voices are output.

【技术实现步骤摘要】
一种多人语音的分离方法和装置本申请为2018年8月9日提交中国专利局、申请号为201810904488.9、专利技术名称为“一种多人语音的分离方法和装置”的中国专利申请的分案申请。
本专利技术涉及人工智能(ArtificialIntelligence,AI)领域,尤其涉及一种多人语音的分离方法和装置。
技术介绍
在嘈杂的声学环境中,比如在鸡尾酒会中,往往同时存在着多个不同的人声以及其他杂音。在这种声学环境下,人类的听觉系统能一定程度地听清楚目标语言,而机器在这方面的能力还远不如人类。因此,如何在多个人声混杂的声学环境中分离出目标语音一直是语音信号处理领域的重要研究方向。现有技术提供的语音降噪方案主要适用于语音和噪声的分离,由于语音和噪声的特性差别很大,现有语音降噪方案已经能很好地完成语音降噪任务。而由于不同说话人的语音特性非常接近,语音分离的技术难度明显大于语音降噪。如何将语音和语音进行分离,仍是未解决的问题。
技术实现思路
本专利技术实施例提供了一种多人语音的分离方法和装置,用于实现在多人语音场景下的语音与语音之间的分离。本专利技术实施例提供以下技术方案:一方面,本专利技术实施例提供一种多人语音的分离方法,包括:从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有N种人声,所述N为大于或等于2的正整数;使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取,得到N种人声对应的掩蔽矩阵;使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离,输出与所述N种人声对应的N种分离语音信号。另一方面,本专利技术实施例还提供一种多人语音的分离装置,包括:特征提取模块,用于从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有N种人声,所述N为大于或等于2的正整数;掩蔽矩阵生成模块,用于使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取,得到N种人声对应的掩蔽矩阵;语音分离模块,用于使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离,输出与所述N种人声对应的N种分离语音信号。在前述方面中,多人语音的分离装置的组成模块还可以执行前述一方面以及各种可能的实现方式中所描述的步骤,详见前述对前述一方面以及各种可能的实现方式中的说明。另一方面,本专利技术实施例提供一种多人语音的分离装置,该多人语音的分离装置包括:处理器、存储器;存储器用于存储指令;处理器用于执行存储器中的指令,使得多人语音的分离装置执行如前述一方面中任一项的方法。另一方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。在本专利技术实施例中,首先从待分离的混合语音信号中提取出混合语音特征,混合语音信号中混合有N种人声,然后使用生成对抗网络模型对混合语音特征进行掩蔽系数提取,得到N种人声对应的掩蔽矩阵;使用生成对抗网络模型对N种人声所对应的掩蔽矩阵和混合语音信号进行语音分离,输出与N种人声对应的N种分离语音信号。由于本专利技术实施例中使用生成对抗网络模型可以提取到N种人声对应的掩蔽矩阵,该生成对抗网络模型可以精确识别多种人声对应的语音信号,基于该生成对抗网络模型实现语音分离网络框架,实现在多人语音场景下的语音与语音之间的分离,提升语音分离的性能。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种多人语音的分离方法的流程方框示意图;图2为本专利技术实施例提供的生成对抗网络模型的训练过程的的流程方框示意图;图3为本专利技术实施例提供的一种生成对抗网络模型的模型架构示意图;图4-a为本专利技术实施例提供的一种多人语音的分离装置的组成结构示意图;图4-b为本专利技术实施例提供的一种多人语音的分离装置的组成结构示意图;图4-c为本专利技术实施例提供的一种模型训练模块的组成结构示意图;图4-d为本专利技术实施例提供的一种生成网络培训单元的组成结构示意图;图4-e为本专利技术实施例提供的一种判别网络培训单元的组成结构示意图;图5为本专利技术实施例提供的多人语音的分离方法应用于终端的组成结构示意图;图6为本专利技术实施例提供的多人语音的分离方法应用于服务器的组成结构示意图。具体实施方式本专利技术实施例提供了一种多人语音的分离方法和装置,用于实现在多人语音场景下的语音与语音之间的分离。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。计算机视觉技术(ComputerVision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。以下分别进行详细说本文档来自技高网...

【技术保护点】
1.一种多人语音的分离方法,其特征在于,包括:/n从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有第一种人声和第二种人声;/n将所述混合语音特征输入到生成网络模型中,由所述生成网络模型进行掩蔽系数提取,得到所述第一种人声对应的第一掩蔽矩阵、所述第二种人声对应的第二掩蔽矩阵;/n使用所述生成网络模型对所述第一掩蔽矩阵和所述混合语音信号进行相乘计算,以得到所述第一种人声对应的第一分离语音信号;/n使用所述生成网络模型对所述第二掩蔽矩阵和所述混合语音信号进行相乘计算,以得到与所述第二种人声对应的第二分离语音信号。/n

【技术特征摘要】
1.一种多人语音的分离方法,其特征在于,包括:
从待分离的混合语音信号中提取出混合语音特征,所述混合语音信号中混合有第一种人声和第二种人声;
将所述混合语音特征输入到生成网络模型中,由所述生成网络模型进行掩蔽系数提取,得到所述第一种人声对应的第一掩蔽矩阵、所述第二种人声对应的第二掩蔽矩阵;
使用所述生成网络模型对所述第一掩蔽矩阵和所述混合语音信号进行相乘计算,以得到所述第一种人声对应的第一分离语音信号;
使用所述生成网络模型对所述第二掩蔽矩阵和所述混合语音信号进行相乘计算,以得到与所述第二种人声对应的第二分离语音信号。


2.根据权利要求1所述的方法,其特征在于,所述生成网络模型属于生成对抗网络模型的一部分,所述生成对抗网络模型还包括:判别网络模型,所述从待分离的混合语音信号中提取出混合语音特征之前,所述方法还包括:
从样本数据库中获取混合语音样本和干净语音样本,所述混合语音样本中混合有第一样本人声和第二样本人声;
从所述混合语音样本中提取出混合语音样本特征;
将所述混合语音样本特征输入到所述生成网络模型中,由所述生成网络模型进行掩蔽系数提取,得到所述第一样本人声对应的第一样本掩蔽矩阵、所述第二样本人声对应的第二样本掩蔽矩阵;
使用所述生成网络模型对所述第一样本掩蔽矩阵和所述混合语音样本进行相乘计算,以得到所述第一样本人声对应的第一分离语音样本,使用所述生成网络模型对所述第二样本掩蔽矩阵和所述混合语音样本进行相乘计算,以得到所述第二样本人声对应的第二分离语音样本;
使用所述第一分离语音样本、所述第二分离语音样本、所述混合语音样本和所述干净语音样本,对所述生成网络模型和所述判别网络模型进行交替训练。


3.根据权利要求2所述的方法,其特征在于,所述使用所述第一分离语音样本、所述第二分离语音样本、所述混合语音样本和所述干净语音样本,对所述生成网络模型和所述判别网络模型进行交替训练,包括:
在本次训练所述判别网络模型时,固定所述生成网络模型;
使用所述第一分离语音样本、所述第二分离语音样本、所述混合语音样本和所述干净语音样本获取所述判别网络模型的损失函数;
通过最小化所述判别网络模型的损失函数,优化所述判别网络模型;
在下一次训练所述生成网络模型时,固定所述判别网络模型;
使用所述第一分离语音样本、所述第二分离语音样本、所述混合语音样本和所述干净语音样本获取所述生成网络模型的损失函数;
通过最小化所述生成网络模型的损失函数,优化所述生成网络模型。


4.根据权利要求3所述的方法,其特征在于,所述使用所述第一分离语音样本、所述第二分离语音样本、所述混合语音样本和所述干净语音样本获...

【专利技术属性】
技术研发人员:陈联武于蒙钱彦旻苏丹俞栋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1