一种基于语义的声源定位方法、装置及存储介质制造方法及图纸

技术编号：23024201 阅读：63 留言：0更新日期：2020-01-03 16:35

本发明专利技术公开了一种基于语义的声源定位方法、装置及存储介质。基于语义的声源定位方法包括：首先，利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；接下来，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；然后，从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；之后，将目标音频信号所在方向确定为定位方向。可以看出，本发明专利技术实施例在波达方向估计(DOA)基础上，利用波束成形技术获得定向的增强音频信号，并加入了语义相关性的考虑，可以从声频特征类似的多个声源中定位目标声源，去除噪音影响，大大提高了抗干扰能力。

A semantic based sound source location method, device and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义的声源定位方法、装置及存储介质
本专利技术涉及人工智能(ArtificialIntelligence，AI)
，尤其涉及一种基于语义的声源定位方法、装置及计算机存储介质。
技术介绍
目前，声源定位方法一般会利用以下三种技术：基于最大输出功率的可控波束成形技术、基于高分辨率谱估计技术和基于声达时间差的定位技术。其中，基于声达时间差的定位技术的波达方向估计(DirectionofArrival，DOA)应用较为广泛，该方法主要利用声波到达各个麦克风的时间差进行求解，得到声源的方向。该方法能比较好地应用于以下场景：1)信源为远场、窄道信号；2)信源个数小于阵元数；3)各通道噪声为加性噪声，彼此独立，也独立于信号。因此该技术多应用于雷达无源定位、声纳阵列测向，电子或通信干扰侦察和移动通信邻域。近年来，随着智能语音系统的不断发展和应用，DOA也被应用于通过麦克风阵列获取语音声源定位的任务中。然而，本专利技术人发现在智能语音系统中应用DOA技术进行声源定位时，存在以下问题：1)当声源采集区域存在声频特征类似的多个声源时，无法精确识别目标声源，进行定位；2)当声源采集区域在非目标声源方向存在多个非语音噪音，且音量较大，难以对目标声源进行准确定位。尤其在声源采集区域为比较嘈杂的公共环境场所，上述问题就更为突出。
技术实现思路
本专利技术实施例为了解决以上问题，创造性地提供一种基于语义的声源定位方法、装置及计算机存储介质。根据本专利技术实施例第一方面，提供一种基于语义的声源...

【技术保护点】
1.一种基于语义的声源定位方法，其特征在于，所述方法包括：/n利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；/n对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；/n从所述N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；/n将所述目标音频信号所在方向确定为定位方向。/n

【技术特征摘要】
1.一种基于语义的声源定位方法，其特征在于，所述方法包括：
利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；
对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；
从所述N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；
将所述目标音频信号所在方向确定为定位方向。

2.根据权利要求1所述的方法，其特征在于，所述N的取值大于等于6。

3.根据权利要求1所述的方法，其特征在于，所述N个方向包括：以全方位平面360°等间隔划分的N个方向。

4.根据权利要求1所述的方法，其特征在于，所述利用波束成形技术对N个方向的音频信号进行增强，包括：
利用麦克风阵列波束成形技术，通过多通道的语音增强算法对N个方向的音频信号进行增强。

5.根据权利要求1所述的方法，其特征在于，所述对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：
利用关键词检测技术，对所述N个增强音频结果分别与目标关键词进行对比，得到相应的N个确信值。

6.根据权利要求1所述的方法，其特征在于，所述对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：
利用语音识别技术，对所述N个增强音频结果分别与目...

【专利技术属性】
技术研发人员：刘立杰，雷欣，李志飞，
申请(专利权)人：出门问问信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人