【技术实现步骤摘要】
特定人声的声源定位方法、装置和计算机设备
本申请涉及声源定位
,特别涉及一种特定人声的声源定位方法、装置和计算机设备。
技术介绍
在特定场合,录像装置、拾音装置等需要采集某个特定人物的音视频信息,比如在大讲堂、公开课等场景,摄像头和拾音模块需要聚焦在讲课老师的方向上;在节目舞台上,摄像头和拾音模块需要聚焦在主持人的方向上。而在实际场景中,由于现场环境嘈杂,可能存在多个说话人,并且特定人物的位置并不是固定不变的(可能因互动而到处移动)。传统的声源定位算法无法区分特定人物语音以及干扰语音(比如其他人的语音)的区别,因而无法准确实现对特定人声的声源定位。
技术实现思路
本申请的主要目的为提供一种特定人声的声源定位方法、装置和计算机设备,旨在解决现有声源定位算法无法准确实现对特定人声的声源定位的弊端。为实现上述目的,本申请提供了一种特定人声的声源定位方法,包括:获取多通道音频;判断所述多通道音频中是否存在目标人语音;若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。进一步的,所述判断所述多通道音频中是否存在目标人语音的步骤,包括:从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;将各所述MFCC缓存为一组,输 ...
【技术保护点】
1.一种特定人声的声源定位方法,其特征在于,包括:/n获取多通道音频;/n判断所述多通道音频中是否存在目标人语音;/n若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;/n分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;/n对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。/n
【技术特征摘要】 【专利技术属性】
1.一种特定人声的声源定位方法,其特征在于,包括:
获取多通道音频;
判断所述多通道音频中是否存在目标人语音;
若所述多通道音频中存在目标人语音,则按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱;
分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱;
对所述角谱进行峰值搜索,以最大峰值所对应的角度数据作为所述目标人语音的声源位置信息。
2.根据权利要求1所述的特定人声的声源定位方法,其特征在于,所述判断所述多通道音频中是否存在目标人语音的步骤,包括:
从所述多通道音频中选取任一通道音频进行特征提取,得到各帧音频分别对应的MFCC;
将各所述MFCC缓存为一组,输入第一神经网络进行处理,得到识别概率,所述第一神经网络用于识别输入音频中存在目标人语音的概率;
判断所述识别概率是否大于概率阈值;
若所述识别概率大于概率阈值,则判定所述多通道音频中存在目标人语音;
若所述识别概率均小于概率阈值,则判定所述多通道音频中不存在目标人语音。
3.根据权利要求2所述的特定人声的声源定位方法,其特征在于,所述判断所述识别概率是否大于概率阈值的步骤,包括:
判断所述识别概率是否为异常概率;
若所述识别概率为异常概率,则根据所述异常概率、所述异常概率的前一识别概率、所述异常概率的后一识别概率进行均值计算,得到修正概率,所述前一识别概率为所述异常概率前一组MFCC所对应的识别概率,所述后一识别概率为所述异常概率后一组MFCC所对应的识别概率;
判断所述修正概率是否大于概率阈值;
若所述修正概率大于概率阈值,则判定所述识别概率大于概率阈值;
若所述修正概率小于概率阈值,则判定所述识别概率小于概率阈值。
4.根据权利要求1所述的特定人声的声源定位方法,其特征在于,所述按照预设规则对所述多通道音频进行处理,得到多个目标人语音相位谱的步骤,包括:
对所述多通道音频进行快速傅里叶变换,得到多个频域信号;
将各所述频域信号输入第二神经网络进行处理,得到各所述目标人语音相位谱,所述第二神经网络用于分离出输入音频信号中目标人语音的相位谱。
5.根据权利要求1所述的特定人声的声源定位方法,其特征在于,所述分别计算各所述目标人语音相位谱的可控响应功率,处理得到角谱的步骤,包括:
以麦克风阵列的几何中心为原点构建空间直角坐标系;
按照预设角度范围,在所述空间直角坐标系上选取若干个方向向量;
技术研发人员:陈俊彬,王广新,太荣鹏,
申请(专利权)人:深圳市友杰智新科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。