语音分离方法、语音识别方法及相关设备技术

技术编号:22566737 阅读:91 留言:0更新日期:2019-11-16 12:45
本发明专利技术实施例提供了一种语音分离方法、语音识别方法及相关设备。该语音分离方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。

Speech separation method, speech recognition method and related equipment

The embodiment of the invention provides a speech separation method, a speech recognition method and related equipment. The speech separation method includes: acquiring the mixed speech signal including at least two target objects; acquiring the single channel spectrum feature and the multi-channel azimuth feature corresponding to the mixed speech signal; processing the single channel spectrum feature and the multi-channel azimuth feature through the overlapping judgment model to obtain whether the target objects in the mixed speech signal exist or not In the overlapping judgment result, the overlapping judgment model is used to determine whether there is spatial overlap between the target objects; according to the judgment result, it is determined to obtain the target speech spectrum mask matrix of each target object in the mixed speech signal by using single channel separation network or multi-channel separation network.

【技术实现步骤摘要】
语音分离方法、语音识别方法及相关设备
本专利技术涉及计算机
,具体而言,涉及一种语音分离方法、语音识别方法、语音分离装置、计算机可读介质及电子设备。
技术介绍
在嘈杂的声学环境中,比如在鸡尾酒会中,往往同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声等杂音,以及这些声音经墙壁和室内的物体反射所产生的反射声等。在声波的传递过程中,不同声源所发出的声波之间(不同人说话的声音以及其他物体振动发出的声音)以及直达声和反射声之间会在传播介质(通常是空气)中相叠加而形成复杂的混合声波。因此,在达到听者外耳道的混合声波中已经不存在独立的与多个声源相对应的声波了。然而,在这种声学环境下,人类的听觉系统却能在一定程度上听清楚其所注意的目标语音,而机器在这方面的能力还不如人类。因此,在语音信号处理领域,如何能够实现在嘈杂环境中分离出目标语音的功能是目前亟待解决的技术问题。
技术实现思路
本专利技术实施例的目的在于提供一种语音分离方法、语音识别方法及相关设备,进而至少在一定程度上实现在嘈杂环境中分离出目标语音。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的一个方面,提供了一种语音分离方法,所述方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征,所述全语音频段包括K个子频段,K为大于等于2的正整数;从所述全语音频段的单通道频谱特征和多通道方位特征中,提取K个子频段的单通道频谱特征和多通道方位特征;通过K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理,获得K个第一特征向量;根据所述K个第一特征向量生成合并特征向量;通过第一预测网络对所述合并特征向量进行处理,获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵。在本专利技术的一些示例性实施例中,所述方法还包括:根据各目标对象的第一语音频谱掩码矩阵和所述混合语音信号,获得各目标对象的第一语音频谱。在本专利技术的一些示例性实施例中,K的取值范围为[2,8]之间的正整数。在本专利技术的一些示例性实施例中,所述单通道频谱特征包括对数功率谱;所述多通道方位特征包括多通道相位差特征和/或多通道幅度差特征。在本专利技术的一些示例性实施例中,K个第一神经网络中的各第一神经网络包括LSTM、DNN、CNN中的任意一个或者多个。根据本专利技术实施例的一个方面,提供了一种语音分离方法,所述方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。在本专利技术的一些示例性实施例中,根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵,包括:若所述判断结果为目标对象之间不存在重叠,则通过多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理,获得所述目标语音频谱掩码矩阵。在本专利技术的一些示例性实施例中,根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵,包括:若所述判断结果为目标对象之间存在重叠,则通过单通道分离网络对所述单通道频谱特征进行处理,获得所述目标语音频谱掩码矩阵。在本专利技术的一些示例性实施例中,通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,包括:根据所述单通道频谱特征和多通道方位特征确定各目标对象的空间位置;将采集所述混合语音信号的麦克风阵列作为参照点,根据各目标对象的空间位置获得任意两个目标对象之间的夹角;获取任意两个目标对象之间的夹角的最小值;若所述夹角的最小值超过门限值,则所述判断结果为目标对象之间存在重叠;若所述夹角的最小值未超过所述门限值,则所述判断结果为目标对象之间不存在重叠。在本专利技术的一些示例性实施例中,通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,包括:通过所述重叠判断模型对所述全语音频段的单通道频谱特征和多通道方位特征进行处理,获得所述判断结果。根据本专利技术实施例的一个方面,提供了一种语音分离方法,所述方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。根据本专利技术实施例的一个方面,提供了一种语音识别方法,所述方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征,所述全语音频段包括K个子频段,K为大于等于2的正整数;从所述全语音频段的单通道频谱特征和多通道方位特征中,提取K个子频段的单通道频谱特征和多通道方位特征;通过K个第一神经网络对所述K个子频段的单通道频谱特征和多通道频谱特征进行处理,获得K个第一特征向量;根据所述K个第一特征向量生成合并特征向量;通过第一预测网络对所述合并特征向量进行处理,获得所述混合语音信号中各目标对象的第一语音频谱掩码矩阵;根据各目标对象的第一语音频谱掩码矩阵识别出各目标对象的语音信号。根据本专利技术实施例的一个方面,提供了一种语音识别方法,所述方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;根据所述判断结果确定所述混合语音信号中各目标对象的目标语音频谱掩码矩阵;根据各目标对象的目标语音频谱掩码矩阵识别出各目标对象的语音信号。根据本专利技术实施例的一个方面,提供了一种语音识别方法,所述方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵;根据各目标对象的目标语音频谱掩码矩阵识别出各目标对象的语音信号。...

【技术保护点】
1.一种语音分离方法,其特征在于,包括:/n获取包括至少两个目标对象的语音信号的混合语音信号;/n获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;/n通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;/n根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。/n

【技术特征摘要】
1.一种语音分离方法,其特征在于,包括:
获取包括至少两个目标对象的语音信号的混合语音信号;
获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;
通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;
根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。


2.根据权利要求1所述的语音分离方法,其特征在于,根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵,包括:
若所述判断结果为目标对象之间不存在重叠,则通过所述多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。


3.根据权利要求2所述的语音分离方法,其特征在于,根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵,还包括:
若所述判断结果为目标对象之间存在重叠,则通过所述单通道分离网络对所述单通道频谱特征进行处理,获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。


4.根据权利要求3所述的语音分离方法,其特征在于,获取所述混合语音信号对应的单通道频谱特征和多通道方位特征,包括:
获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征。


5.根据权利要求4所述的语音分离方法,其特征在于,所述全语音频段包括K个子频段,K为大于等于2的正整数;其中,获取所述混合语音信号对应的单通道频谱特征和多通道方位特征,还包括:
从所述全语音频段的单通道频谱特征和多通道方位特征中,提取K个子频段的单通道频谱特征和多通道方位特征。


6.根据权利要求5所述的语音分离方法,其特征在于,所述重叠判断模型包括K个第一神经网络和第四预测网络;其中,通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,包括:
通过所述K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理,获得K个第一特征向量;
根据所述K个第一特征向量生成合并特征向量;
将所述合并特征向量输入所述第四预测网络,输出所述判断结果。


7.根据权利要求6所述的语音分离方法,其特征在于,所述多通道分离网络包括第五预测网络;其中,通过所述多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中各目标对象的目标语音频谱掩码矩...

【专利技术属性】
技术研发人员:陈联武于蒙苏丹俞栋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1