特定人声的声源定位方法、装置和计算机设备制造方法及图纸

技术编号:26341320 阅读:41 留言:0更新日期:2020-11-13 20:20
本申请提供了一种特定人声的声源定位方法、装置和计算机设备,系统首先判断获取的多通道音频中是否存在目标人语音,若多通道音频中存在目标人语音,则按照预设规则对多通道音频进行处理,得到多个目标人语音相位谱。系统分别计算各目标人语音相位谱的可控响应功率,处理得到角谱。最后对角谱进行峰值搜索,以最大峰值所对应的角度数据作为目标人语音的声源位置信息。本申请在识别到目标人语音后,根据目标人语音相位谱进行相应的计算得到声源位置,在计算过程中并不涉及音频的功率谱,因而可以减少无关信息的干扰,从而准确定位特定人声的声源位置。

【技术实现步骤摘要】
特定人声的声源定位方法、装置和计算机设备
本申请涉及声源定位
,特别涉及一种特定人声的声源定位方法、装置和计算机设备。
技术介绍
在特定场合,录像装置、拾音装置等需要采集某个特定人物的音视频信息,比如在大讲堂、公开课等场景,摄像头和拾音模块需要聚焦在讲课老师的方向上;在节目舞台上,摄像头和拾音模块需要聚焦在主持人的方向上。而在实际场景中,由于现场环境嘈杂,可能存在多个说话人,并且特定人物的位置并不是固定不变的(可能因互动而到处移动)。传统的声源定位算法无法区分特定人物语音以及干扰语音(比如其他人的语音)的区别,因而无法准确实现对特定人声的声源定位。
技术实现思路
本申请的主要目的为提供一种特定人声的声源定位方法、装置和计算机设备,旨在解决现有声源定位算法无法准确实现对特定人声的声源定位的弊端。为实现上述目的,本申请提供了一种特定人声的声源定位方法,包括:获取多通道音频;判断所述多通道音频中是否存在目标人语音;若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。进一步的,所述判断所述多通道音频中是否存在目标人语音的步骤,包括:从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;判断所述识别概率是否大于概率阈值;若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;若所述识别概率小于概率阈值,则判定所述多通道音频中不存在目标人语音。进一步的,所述判断所述识别概率是否大于概率阈值的步骤,包括:判断所述识别概率是否为异常概率;若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;判断所述修正概率是否大于概率阈值;若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。进一步的,所述按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱的步骤,包括:对所述多通道音频进行快速傅里叶变换,得到多个频域信号;将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱。进一步的,所述分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱的步骤,包括:以麦克风阵列的几何中心为原点构建空间直角坐标系;按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率;将各所述方向向量转化为角度形式,得到各所述方向向量分别对应的水平角和俯仰角;根据各所述可控响应功率与各所述方向向量分别对应的水平角和俯仰角之间的对应关系,生成所述角谱。进一步的,所述根据各所述方向向量和各所述目标人语音相位谱,计算得到各所述方向向量各自对应的所述可控响应功率的步骤,包括:将各所述目标人语音相位谱转化为复数形式的目标人语音相位谱,并计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差;将所述复数形式的目标人语音相位谱、所述时间差和所述方向向量代入第一公式中,计算得到所述麦克风阵列中两个麦克风所接收的音频帧数据之间的广义互相关函数,其中,所述第一公式为:,为所述时间差,、均为复数形式的目标人语音相位谱,为所述方向向量,为所述广义互相关函数;将所述广义互相关函数代入第二公式中,计算得到各所述可控响应功率,其中,所述第二公式为:,为所述可控响应功率。优选的,所述计算各所述方向向量所在方向分别到达所述麦克风阵列中两个麦克风的时间差的步骤,包括:将所述方向向量代入第三公式中,计算得到对应的所述时间差,其中,所述第三公式为:,为第a个麦克风在所述空间直角坐标系中的坐标向量,为第c个麦克风在所述空间直角坐标系中的坐标向量,v为音速。本申请还提供了一种特定人声的声源定位装置,包括:获取模块,用于获取多通道音频;判断模块,用于判断所述多通道音频中是否存在目标人语音;处理模块,用于若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;计算模块,用于分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;搜索模块,用于对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。进一步的,所述判断模块,包括:提取子模块,用于从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;第一处理子模块,用于将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;判断子模块,用于判断所述识别概率是否大于概率阈值;第一判定子模块,用于若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;第二判定子模块,用于若所述识别概率小于概率阈值,则判定所述多通道音频中不存在目标人语音。进一步的,所述判断子模块,包括:第一判断单元,用于判断所述识别概率是否为异常概率;第一计算单元,用于若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;第二判断单元,用于判断所述修正概率是否大于概率阈值;第一判定单元,用于若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;第二判定单元,用于若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。进一步的,所述处理模块,包括:变换子模块,用于对所述多通道音频进行快速傅里叶变换,得到多个频域信号;第二处理子模块,用于将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱。进一步的,所述计算模块,包括:构建子模块,用于以麦克风阵列的几何中心为原点构建空间直角坐标系;选取子模块,用于按照本文档来自技高网...

【技术保护点】
1.一种特定人声的声源定位方法,其特征在于,包括:/n获取多通道音频;/n判断所述多通道音频中是否存在目标人语音;/n若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;/n分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;/n对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。/n

【技术特征摘要】
1.一种特定人声的声源定位方法,其特征在于,包括:
获取多通道音频;
判断所述多通道音频中是否存在目标人语音;
若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;
分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;
对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。


2.根据权利要求1所述的特定人声的声源定位方法,其特征在于,所述判断所述多通道音频中是否存在目标人语音的步骤,包括:
从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;
将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;
判断所述识别概率是否大于概率阈值;
若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;
若所述识别概率均小于概率阈值,则判定所述多通道音频中不存在目标人语音。


3.根据权利要求2所述的特定人声的声源定位方法,其特征在于,所述判断所述识别概率是否大于概率阈值的步骤,包括:
判断所述识别概率是否为异常概率;
若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;
判断所述修正概率是否大于概率阈值;
若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;
若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。


4.根据权利要求1所述的特定人声的声源定位方法,其特征在于,所述按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱的步骤,包括:
对所述多通道音频进行快速傅里叶变换,得到多个频域信号;
将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱。


5.根据权利要求1所述的特定人声的声源定位方法,其特征在于,所述分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱的步骤,包括:
以麦克风阵列的几何中心为原点构建空间直角坐标系;
按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;

【专利技术属性】
技术研发人员:陈俊彬王广新太荣鹏
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1