当前位置: 首页 > 专利查询>北京大学专利>正文

一种说话人数未知的多通道语音分离方法技术

技术编号:26794759 阅读:43 留言:0更新日期:2020-12-22 17:11
本发明专利技术公开了一种说话人数未知的多通道语音分离方法。本方法步骤包括:1)采集目标空间中的多通道音频信号,并提取该多通道音频信号的时频特征和空间特征;2)利用所述时频特征和所述空间特征估计出该目标空间中说话人所在方向的数目;3)利用所述时频特征、空间特征及估计出的方向数目,获得该目标空间中各说话人所在目标方向;4)利用估计出的各说话人所在目标方向设计方向特征,并结合时频特征和空间特征从该多通道音频信号中提取出每一目标方向上的语音信号;5)从每一目标方向上的语音信号中迭代分离出对应目标方向上可能存在的多个说话人语音。本发明专利技术既规避了语音迭代分离误差随迭代次数增大而增大的问题,又提高了语音分离的性能。

【技术实现步骤摘要】
一种说话人数未知的多通道语音分离方法
本专利技术属于多说话人语音分离领域,涉及多声源数目估计、多声源空间定向、波束形成和语音迭代分离,具体涉及一种说话人数未知的多通道语音分离方法。
技术介绍
语音作为人与人之间交流的重要方式,是信息传递的一种重要载体。随着社会信息化的加速,语音也逐渐成为了人与计算机、智能设备等之间的重要交互方式。然而实际生活中,语音在从声源到麦克风的传播中常常会受到环境噪声、其他说话人的声音及封闭环境中混响等干扰的影响,使得接收到的语音的可懂度严重下降。为了提高目标语音的可懂度和感知质量,在一些语音信号处理的前端技术中需要将这些干扰减弱。很多年以来,很多方法在语音分离方面都进行了尝试,并取得了一些效果。比如典型的单通道语音分离方法有计算听觉场景分析、高斯混合模型-隐马尔可夫模型、非负矩阵分解和基于深度学习的方法;典型的多通道分离方法如独立成分分析、波束形成和基于深度学习的方法。尽管多说话人语音分离在已知说话人数的情况下取得了不错的分离效果,但假设性太强,在实际生活中很难广泛应用。因为这些语音分离方法都具有一个主要问题,本文档来自技高网...

【技术保护点】
1.一种说话人数未知的多通道语音分离方法,其步骤包括:/n1)采集目标空间中的多通道音频信号,并提取该多通道音频信号的时频特征和空间特征;/n2)利用所述时频特征和所述空间特征估计出该目标空间中说话人所在方向的数目;/n3)利用所述时频特征、空间特征及估计出的方向数目,获得该目标空间中各说话人所在目标方向;/n4)利用估计出的各说话人所在目标方向设计方向特征,并结合时频特征和空间特征从该多通道音频信号中提取出每一目标方向上的语音信号;/n5)从每一目标方向上的语音信号中迭代分离出对应目标方向上可能存在的多个说话人语音。/n

【技术特征摘要】
1.一种说话人数未知的多通道语音分离方法,其步骤包括:
1)采集目标空间中的多通道音频信号,并提取该多通道音频信号的时频特征和空间特征;
2)利用所述时频特征和所述空间特征估计出该目标空间中说话人所在方向的数目;
3)利用所述时频特征、空间特征及估计出的方向数目,获得该目标空间中各说话人所在目标方向;
4)利用估计出的各说话人所在目标方向设计方向特征,并结合时频特征和空间特征从该多通道音频信号中提取出每一目标方向上的语音信号;
5)从每一目标方向上的语音信号中迭代分离出对应目标方向上可能存在的多个说话人语音。


2.如权利要求1所述的方法,其特征在于,利用麦克风阵列采集目标空间中的多通道音频信号;所述时频特征是麦克风阵列中参考麦克风采集到的信号的幅度谱,所述空间特征是麦克风阵列中参考麦克风与其余麦克风之间的相位差的正弦值和余弦值的拼接。


3.如权利要求2所述的方法,其特征在于,步骤2)中,利用深度神经网络将所述时频特征、所述空间特征分别映射到各自的嵌入空间,然后将两个嵌入空间融合到同一个嵌入空间后通过特征值分解,获得该目标空间中说话人所在方向的数目。


4.如权利要求2所述的方法,其特征在于,步骤3)中,获得该目标空间中各说话人所在目...

【专利技术属性】
技术研发人员:曲天书吴玺宏彭超
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1