The embodiment of the invention provides a speech separation method, a speech recognition method and related equipment. The speech separation method includes: acquiring the mixed speech signal including at least two target objects; acquiring the single channel spectrum feature and the multi-channel azimuth feature corresponding to the mixed speech signal; processing the single channel spectrum feature and the multi-channel azimuth feature through the overlapping judgment model to obtain whether the target objects in the mixed speech signal exist or not In the overlapping judgment result, the overlapping judgment model is used to determine whether there is spatial overlap between the target objects; according to the judgment result, it is determined to obtain the target speech spectrum mask matrix of each target object in the mixed speech signal by using single channel separation network or multi-channel separation network.
【技术实现步骤摘要】
语音分离方法、语音识别方法及相关设备
本专利技术涉及计算机
,具体而言,涉及一种语音分离方法、语音识别方法、语音分离装置、计算机可读介质及电子设备。
技术介绍
在嘈杂的声学环境中,比如在鸡尾酒会中,往往同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声等杂音,以及这些声音经墙壁和室内的物体反射所产生的反射声等。在声波的传递过程中,不同声源所发出的声波之间(不同人说话的声音以及其他物体振动发出的声音)以及直达声和反射声之间会在传播介质(通常是空气)中相叠加而形成复杂的混合声波。因此,在达到听者外耳道的混合声波中已经不存在独立的与多个声源相对应的声波了。然而,在这种声学环境下,人类的听觉系统却能在一定程度上听清楚其所注意的目标语音,而机器在这方面的能力还不如人类。因此,在语音信号处理领域,如何能够实现在嘈杂环境中分离出目标语音的功能是目前亟待解决的技术问题。
技术实现思路
本专利技术实施例的目的在于提供一种语音分离方法、语音识别方法及相关设备,进而至少在一定程度上实现在嘈杂环境中分离出目标语音。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的一个方面,提供了一种语音分离方法,所述方法包括:获取包括至少两个目标对象的语音信号的混合语音信号;获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征,所述全语音频段包括K个子频段,K为大于等于2的正整数;从所述全语音频段的单通道频谱特征和多通
【技术保护点】
1.一种语音分离方法,其特征在于,包括:/n获取包括至少两个目标对象的语音信号的混合语音信号;/n获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;/n通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;/n根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。/n
【技术特征摘要】
1.一种语音分离方法,其特征在于,包括:
获取包括至少两个目标对象的语音信号的混合语音信号;
获取所述混合语音信号对应的单通道频谱特征和多通道方位特征;
通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,所述重叠判断模型用于判断目标对象之间是否存在空间上的重叠;
根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。
2.根据权利要求1所述的语音分离方法,其特征在于,根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵,包括:
若所述判断结果为目标对象之间不存在重叠,则通过所述多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。
3.根据权利要求2所述的语音分离方法,其特征在于,根据所述判断结果确定采用单通道分离网络或者多通道分离网络获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵,还包括:
若所述判断结果为目标对象之间存在重叠,则通过所述单通道分离网络对所述单通道频谱特征进行处理,获得所述混合语音信号中各目标对象的目标语音频谱掩码矩阵。
4.根据权利要求3所述的语音分离方法,其特征在于,获取所述混合语音信号对应的单通道频谱特征和多通道方位特征,包括:
获取所述混合语音信号对应的全语音频段的单通道频谱特征和多通道方位特征。
5.根据权利要求4所述的语音分离方法,其特征在于,所述全语音频段包括K个子频段,K为大于等于2的正整数;其中,获取所述混合语音信号对应的单通道频谱特征和多通道方位特征,还包括:
从所述全语音频段的单通道频谱特征和多通道方位特征中,提取K个子频段的单通道频谱特征和多通道方位特征。
6.根据权利要求5所述的语音分离方法,其特征在于,所述重叠判断模型包括K个第一神经网络和第四预测网络;其中,通过重叠判断模型对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中的目标对象之间是否存在重叠的判断结果,包括:
通过所述K个第一神经网络对所述K个子频段的单通道频谱特征和多通道方位特征进行处理,获得K个第一特征向量;
根据所述K个第一特征向量生成合并特征向量;
将所述合并特征向量输入所述第四预测网络,输出所述判断结果。
7.根据权利要求6所述的语音分离方法,其特征在于,所述多通道分离网络包括第五预测网络;其中,通过所述多通道分离网络对所述单通道频谱特征和多通道方位特征进行处理,获得所述混合语音信号中各目标对象的目标语音频谱掩码矩...
【专利技术属性】
技术研发人员:陈联武,于蒙,苏丹,俞栋,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。