System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于方向修正的声源定位方法、装置、设备、存储介质制造方法及图纸_技高网

基于方向修正的声源定位方法、装置、设备、存储介质制造方法及图纸

技术编号:40639715 阅读:7 留言:0更新日期:2024-03-13 21:22
本发明专利技术提出了基于方向修正的声源定位方法、装置、设备、存储介质,该方法包括:双麦克风阵列基于均匀线阵模型获取双通道语音信息,将对双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号;基于麦克风阵列信号进行声源波达方向估计得到多个声源估计方向;通过摄像头进行人像定位聚焦得到人像方向角度,基于均匀线阵模型将人像方向角度转换到人像方位角度;计算人像方位角度与各个声源估计方向之间的完全平方差,将计算出的最小的完全平方差所对应的声源估计方向确定为目标声源方向。根据本发明专利技术实施例的技术方案,能够在得到声波估计方向后,利用人像定位进行方向修正,在麦克风阵列维度受限的情况下提高声源定位的准确性。

【技术实现步骤摘要】

本专利技术涉及语音处理,特别涉及一种基于方向修正的声源定位方法、装置、设备、存储介质


技术介绍

1、随着居家办公和跨地区沟通的常态化,视频会议作为必要的远程沟通协作途径,携带有摄像头和麦克风的视频会议设备越来越受到欢迎,其使用体验感要求与日俱增。而这需要摄像头能够满足快速定位、自动变焦、ai自动成像等功能,同时要求麦克风具有主动降噪、抑制环境噪声的能力。在语音质量提升方面,一般会采用麦克风阵列算法对语音信号进行降噪处理,其次通过对声源信号的准确定位从而进行语音增强。

2、目前,麦克风阵列的声源定位算法能够实现声源定位,麦克风阵列的维度越多,声源定位的准确率越高,但是对于居家办公等场景,受限于设备体积和成本,并不能在视频会议设备中设置过多的麦克风,通常只是采用双麦克风阵列,通过双麦克风阵列算法实现声源定位的准确性不高,影响语音增强的效果,影响用户体验。


技术实现思路

1、本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种基于方向修正的声源定位方法、装置、设备、存储介质,能够在根据人像方向修正声源方向,提高声源定位的准确性。

2、第一方面,本专利技术实施例提供了一种基于方向修正的声源定位方法,应用于视频会议设备,所述视频会议设备包括摄像头和双麦克风阵列,所述双麦克风阵列预设有均匀线阵模型,所述基于方向修正的声源定位方法包括:

3、所述双麦克风阵列基于所述均匀线阵模型获取双通道语音信息,将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号;

4、基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向;

5、通过所述摄像头进行人像定位聚焦得到人像方向角度,基于所述均匀线阵模型将所述人像方向角度转换到人像方位角度;

6、计算所述人像方位角度与各个所述声源估计方向之间的完全平方差,将计算出的最小的所述完全平方差所对应的所述声源估计方向确定为目标声源方向。

7、根据本专利技术的一些实施例,所述将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号,包括:

8、对所述双通道语音信息进行左右声道分离,得到左右声道语音信息;

9、获取所述左右声道语音信息转换为频域语音信号,对所述频域语音信号进行抗混叠下采样,得到采样信号;

10、对所述采样信号进行降噪处理后转换到时域得到降噪时域信号;

11、对所述降噪时域信号进行去混响处理后得到音频帧序列,其中,所述音频帧序列包括多帧音频帧;

12、基于所述音频帧序列进行vad判决筛选出多帧语音帧,将所述语音帧组合成的序列确定为所述麦克风阵列信号。

13、根据本专利技术的一些实施例,所述对所述采样信号进行降噪处理后转换到时域得到降噪时域信号,包括:

14、对所述采样信号依次进行加窗、fft变换和求模,得到原始信号功率谱;

15、基于所述原始信号功率谱依次进行分位数噪声估计、语音存在概率估计、噪声更新和抑制系数计算,确定所每个频点的噪声抑制系数;

16、将所述噪声抑制系数乘以所述原始信号功率谱得到降噪功率谱;

17、对所述降噪功率谱进行i fft变化,得到所述降噪时域信号。

18、根据本专利技术的一些实施例,所述基于所述音频帧序列进行vad判决筛选出多帧语音帧,包括:

19、对所述音频帧序列进行fft变换后,确定每一帧所述音频帧的帧功率和先验后验snr;

20、将所述音频帧、所述帧功率、先验后验snr输入预设的概率模型进行vad判决,根据判据结果确定所述音频帧为语音帧或者静默帧。

21、根据本专利技术的一些实施例,所述基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向,包括:

22、将所述麦克风阵列信号在预设空域划分多个样本角度,计算每个所述样本角度的导向矢量信息;

23、计算所述麦克风阵列信号的空间相关矩阵的矩阵估计值;

24、基于所述导向矢量信息的转置和所述矩阵估计值,计算各个所述样本角度所对应的样本功率谱;

25、基于所述样本功率谱从大到小的排序,根据预设的方向数量将排序靠前的多个所述样本功率谱所对应的所述样本角度确定为所述声源估计方向。

26、根据本专利技术的一些实施例,所述样本功率谱通过以下公式得到:

27、

28、

29、

30、其中,θq为第q个所述样本角度,q=1,2,3,···q,q为所述样本角度的数量且属于自然数,a(θq)为第q个所述样本角度的所述导向矢量信息,ah(θq0为a(θq)的矩阵共轭转置,[]t表示矩阵转置,e为自然常数,λ为所述双通道语音信息的波长,d为a(θq)的阵元间距,n=1,2,…,n,n为所述双通道语音信息的帧长,x(n)为所述麦克风阵列信号,xh(n)为x(n)的矩阵共轭转置;为所述麦克风阵列信号的矩阵估计值,r-1为的矩阵求逆,p(θq)为所述样本功率谱。

31、根据本专利技术的一些实施例,在所述将计算出的最小的所述完全平方差所对应的所述声源估计方向确定为目标声源方向之后,所述方法还包括:

32、基于所述目标声源方向和波束形成法对所述双通道语音信息进行增强语音,得到增强语音信息;

33、将所述增强语音信息确定为所述双通道语音信息的输出信号进行网络传输。

34、第二方面,本专利技术实施例提供了一种基于方向修正的声源定位装置,包括少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上述第一方面所述的基于方向修正的声源定位方法。

35、第三方面,本专利技术实施例提供了一种电子设备,包括有如上述第二方面所述的基于方向修正的声源定位装置。

36、第四方面,本专利技术实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面所述的基于方向修正的声源定位方法。

37、根据本专利技术实施例的基于方向修正的声源定位方法,至少具有如下有益效果:所述双麦克风阵列基于所述均匀线阵模型获取双通道语音信息,将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号;基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向;通过所述摄像头进行人像定位聚焦得到人像方向角度,基于所述均匀线阵模型将所述人像方向角度转换到人像方位角度;计算所述人像方位角度与各个所述声源估计方向之间的完全平方差,将计算出的最小的所述完全平方差所对应的所述声源估计方向确定为目标声源方向。根据本专利技术实施例的技术方案,能够在得到声波估计方向后,利用人像定位进行方向修正,在麦克风阵列维度受限的情况下提高声源定位的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于方向修正的声源定位方法,其特征在于,应用于视频会议设备,所述视频会议设备包括摄像头和双麦克风阵列,所述双麦克风阵列预设有均匀线阵模型,所述基于方向修正的声源定位方法包括:

2.根据权利要求1所述的基于方向修正的声源定位方法,其特征在于,所述将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号,包括:

3.根据权利要求2所述的基于方向修正的声源定位方法,其特征在于,所述对所述采样信号进行降噪处理后转换到时域得到降噪时域信号,包括:

4.根据权利要求2所述的基于方向修正的声源定位方法,其特征在于,所述基于所述音频帧序列进行VAD判决筛选出多帧语音帧,包括:

5.根据权利要求1所述的基于方向修正的声源定位方法,其特征在于,所述基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向,包括:

6.根据权利要求5所述的基于方向修正的声源定位方法,其特征在于,所述样本功率谱通过以下公式得到:

7.根据权利要求1所述的基于方向修正的声源定位方法,其特征在于,在所述将计算出的最小的所述完全平方差所对应的所述声源估计方向确定为目标声源方向之后,所述方法还包括:

8.一种基于方向修正的声源定位装置,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的基于方向修正的声源定位方法。

9.一种电子设备,其特征在于,包括权利要求8所述的基于方向修正的声源定位装置。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的基于方向修正的声源定位方法。

...

【技术特征摘要】

1.一种基于方向修正的声源定位方法,其特征在于,应用于视频会议设备,所述视频会议设备包括摄像头和双麦克风阵列,所述双麦克风阵列预设有均匀线阵模型,所述基于方向修正的声源定位方法包括:

2.根据权利要求1所述的基于方向修正的声源定位方法,其特征在于,所述将对所述双通道语音信息进行预处理得到的频域信号确定为麦克风阵列信号,包括:

3.根据权利要求2所述的基于方向修正的声源定位方法,其特征在于,所述对所述采样信号进行降噪处理后转换到时域得到降噪时域信号,包括:

4.根据权利要求2所述的基于方向修正的声源定位方法,其特征在于,所述基于所述音频帧序列进行vad判决筛选出多帧语音帧,包括:

5.根据权利要求1所述的基于方向修正的声源定位方法,其特征在于,所述基于所述麦克风阵列信号进行声源波达方向估计得到多个声源估计方向,包括:

6.根据权利要求5所述的基于方向修正的声源定...

【专利技术属性】
技术研发人员:万东琴吴瑛李静陆国方
申请(专利权)人:珠海全志科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1