一种语音分离方法和设备技术

技术编号:32284128 阅读:22 留言:0更新日期:2022-02-12 19:51
本申请公开了一种语音分离方法和设备,涉及计算机软件技术领域,用于提高声源定位的准确度,提升语音分离准确性。该方法包括:获取图像采集设备在预设时间段内采集的目标场景的待处理图像,以及声音采集设备在预设时间段内采集的目标场景的混合声音信号;待处理图像包括第一声源的图像,混合声音信号由第一声源的声音信号和其他声音信号混合而成;基于第一声源的图像在待处理图像中的位置信息,以及图像采集设备相对于声音采集设备的方位信息,确定第一声源相对于声音采集设备的第一方位;增强混合声音信号中的第一方位的声音信号,并抑制除第一方位之外的其他方位的声音信号,得到第一声源的声音信号。一声源的声音信号。一声源的声音信号。

【技术实现步骤摘要】
一种语音分离方法和设备


[0001]本申请涉及计算机软件
,尤其涉及一种语音分离方法和设备。

技术介绍

[0002]当前,语音分离技术应用在生活的各种场景,例如,通话过程中从背景声音中分离出说话人的声音信号,又如,在多人会议中分离出每个人的声音信号方便留存等等。其中,语音分离可以基于单个麦克风阵列或多个分布式麦克风阵列实现声源定位,进而输出一个或多个声源发出的语音,达到语音分离的目的。而在麦克风阵列采集声音的过程中,存在多个声源同时发声时,对于多个声源的定位造成很大的干扰,导致声源定位的准确度低,严重影响语音分离的准确性。

技术实现思路

[0003]本申请实施例提供了一种语音分离方法和设备,用于提高声源定位的准确度,提升语音分离准确性。
[0004]为达到上述目的,本申请实施例提供如下技术方案:
[0005]第一方面,提供了一种语音分离方法,包括:获取图像采集设备在预设时间段内采集的目标场景的任意一张待处理图像,以及声音采集设备在预设时间段内采集的目标场景的混合声音信号;待处理图像包括第一声源的图像,混合声本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音分离方法,其特征在于,包括:获取图像采集设备在预设时间段内采集的目标场景的任意一张待处理图像,以及声音采集设备在所述预设时间段内采集的所述目标场景的混合声音信号;所述待处理图像包括第一声源的图像,所述混合声音信号由所述第一声源的声音信号和其他声音信号混合而成;基于所述第一声源的图像在所述待处理图像中的位置信息,以及所述图像采集设备相对于所述声音采集设备的方位信息,确定所述第一声源相对于所述声音采集设备的第一方位;增强所述混合声音信号中的所述第一方位的声音信号,并抑制除所述第一方位之外的其他方位的声音信号,得到所述第一声源的声音信号。2.根据权利要求1所述的方法,其特征在于,所述待处理图像还包括第二声源的图像,所述其他声音信号包括所述第二声源的声音信号;所述方法还包括:基于所述第二声源的图像在所述待处理图像中的位置信息,以及所述图像采集设备相对于所述声音采集设备的方位信息,确定所述第二声源相对于所述声音采集设备的第二方位;增强所述混合声音信号中的所述第二方位的声音信号,并抑制除所述第二方位之外的其他方位的声音信号,得到所述第二声源的声音信号。3.根据权利要求1或2所述的方法,其特征在于,基于所述第一声源的图像在所述待处理图像中的位置信息,以及所述图像采集设备相对于所述声音采集设备的方位信息,确定所述第一声源相对于所述声音采集设备的第一方位,包括:基于所述第一声源的图像在所述待处理图像中的位置信息,确定所述第一声源相对于所述图像采集设备的方位信息;基于所述第一声源相对于所述图像采集设备的方位信息,以及所述图像采集设备相对于所述声音采集设备的方位信息,确定所述第一声源相对于所述声音采集设备的所述第一方位。4.根据权利要求1所述的方法,其特征在于,所述第一声源是人员,所述方法还包括:通过头肩检测算法,确定所述第一声源的图像在所述待处理图像中的位置信息。5.根据权利要求1或2所述的方法,其特征在于,所述增强所述混合声音信号中的所述第一方位的声音信号,包括:基于波束形成方法,增强所述混合声音信号中的所述第一方位的声音信号。6.根据权利要求1或2所述的方法,其特征在于,所述图像采集设备与所述声音采集设备集成在一起。7.一种计算机设备,其特征在于,包括:获取单元,用于获取图像采集设备在预设时间段内采集的目标场景的任意一张待处理图像,以及声音采集设备在所述预设时间段内采集的所述目标场景的混合声音信号;...

【专利技术属性】
技术研发人员:陈扬坤付加飞邱志浩
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1