一种基于语义的声源定位方法、装置及存储介质制造方法及图纸

技术编号:23024201 阅读:63 留言:0更新日期:2020-01-03 16:35
本发明专利技术公开了一种基于语义的声源定位方法、装置及存储介质。基于语义的声源定位方法包括:首先,利用波束成形技术对N个方向的音频信号进行增强,分别得到相应的N个增强音频结果,其中,N的取值为大于1的正整数;接下来,对N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值;然后,从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号;之后,将目标音频信号所在方向确定为定位方向。可以看出,本发明专利技术实施例在波达方向估计(DOA)基础上,利用波束成形技术获得定向的增强音频信号,并加入了语义相关性的考虑,可以从声频特征类似的多个声源中定位目标声源,去除噪音影响,大大提高了抗干扰能力。

A semantic based sound source location method, device and storage medium

【技术实现步骤摘要】
一种基于语义的声源定位方法、装置及存储介质
本专利技术涉及人工智能(ArtificialIntelligence,AI)
,尤其涉及一种基于语义的声源定位方法、装置及计算机存储介质。
技术介绍
目前,声源定位方法一般会利用以下三种技术:基于最大输出功率的可控波束成形技术、基于高分辨率谱估计技术和基于声达时间差的定位技术。其中,基于声达时间差的定位技术的波达方向估计(DirectionofArrival,DOA)应用较为广泛,该方法主要利用声波到达各个麦克风的时间差进行求解,得到声源的方向。该方法能比较好地应用于以下场景:1)信源为远场、窄道信号;2)信源个数小于阵元数;3)各通道噪声为加性噪声,彼此独立,也独立于信号。因此该技术多应用于雷达无源定位、声纳阵列测向,电子或通信干扰侦察和移动通信邻域。近年来,随着智能语音系统的不断发展和应用,DOA也被应用于通过麦克风阵列获取语音声源定位的任务中。然而,本专利技术人发现在智能语音系统中应用DOA技术进行声源定位时,存在以下问题:1)当声源采集区域存在声频特征类似的多个声源时,无法精确识别目标声源,进行定位;2)当声源采集区域在非目标声源方向存在多个非语音噪音,且音量较大,难以对目标声源进行准确定位。尤其在声源采集区域为比较嘈杂的公共环境场所,上述问题就更为突出。
技术实现思路
本专利技术实施例为了解决以上问题,创造性地提供一种基于语义的声源定位方法、装置及计算机存储介质。根据本专利技术实施例第一方面,提供一种基于语义的声源定位方法,该方法包括:利用波束成形技术对N个方向的音频信号进行增强,分别得到相应的N个增强音频结果,其中,N的取值为大于1的正整数;对N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值;从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号;将目标音频信号所在方向确定为定位方向。根据本专利技术一实施方式,N的取值大于等于6。根据本专利技术一实施方式,N个方向包括:以全方位平面360°等间隔划分的N个方向。根据本专利技术一实施方式,利用波束成形技术对N个方向的音频信号进行增强,包括:利用麦克风阵列波束成形技术,通过多通道的语音增强算法对N个方向的音频信号进行增强。根据本专利技术一实施方式,对N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值,包括:利用关键词检测(Keywordspotting,KWS)技术,对N个增强音频结果分别与目标关键词进行对比,得到相应的N个确信值。根据本专利技术一实施方式,对N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值,包括:利用语音识别技术,对N个增强音频结果分别与目标文本进行匹配,得到相应的N个匹配结果。根据本专利技术一实施方式,对N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值,包括:利用语音识别和自然语言理解技术,对N个增强音频结果分别与目标语义进行对比,得到相应的N个语义相似度。根据本专利技术一实施方式,利用语音识别和自然语言理解技术,对N个增强音频结果分别与目标语义进行对比,得到相应的N个语义相似度,包括:利用语音识别和自然语言理解技术,通过神经网络模型对N个增强音频结果分别与目标语义进行对比,得到相应的N个语义相似度。根据本专利技术实施例第二方面,还提供一种基于语义的声源定位装置,该装置包括:音频信号增强模块,用于利用波束成形技术对N个方向的音频信号进行增强,分别得到相应的N个增强音频结果,其中,N的取值为大于1的正整数;语义对比模块,用于对N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值;目标音频信号选取模块,用于从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号;定位方向确定模块,用于将目标音频信号所在方向确定为定位方向。根据本专利技术一实施方式,音频信号增强模块,具体用于,利用麦克风阵列波束成形技术,通过多通道的语音增强算法对N个方向的音频信号进行增强。根据本专利技术一实施方式,语义对比模块,具体用于,利用关键词检测技术,对N个增强音频结果与目标关键词进行对比,得到相应的N个确信值。根据本专利技术一实施方式,语义对比模块,具体用于,利用语音识别技术,对N个增强音频结果分别与目标文本进行匹配,得到相应的N个匹配结果。根据本专利技术一实施方式,语义对比模块,具体用于,利用语音识别和自然语言理解技术,对N个增强音频结果分别与目标语义进行对比,得到相应的N个语义相似度。根据本专利技术一实施方式,语义对比模块,具体用于,利用语音识别和自然语言理解技术,通过神经网络模型,对N个增强音频结果分别与目标语义进行对比,得到相应的N个语义相似度。根据本专利技术实施例第三方面,又提供一种计算机存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的语言生成方法。本专利技术实施例基于语义的声源定位方法、装置及存储介质,首先,利用波束成形技术对N个方向的音频信号进行增强,分别得到相应的N个增强音频结果,其中,N的取值为大于1的正整数;接下来,对N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值;然后,从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号;之后,将目标音频信号所在方向确定为定位方向。可以看出,本专利技术实施例在DOA基础上,利用波束成形技术获得定向的增强音频信号,并加入了语义相关性的考虑。如此,在对声频信号进行过滤、去噪和加强之后,再利用语音识别加入语义分析,就可以从声频特征类似的多个声源中定位目标声源,去除噪音影响,大大提高了抗干扰能力,尤其适用于语义相关性高的声源定位场景。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。图1示出了本专利技术实施例基于语义的声源定位方法的实现流程示意图;图2示出了本专利技术实施例基于语义的声源定位装置的组成结构示意图。具体实施方式为使本专利技术的目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本专利技术的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“本文档来自技高网...

【技术保护点】
1.一种基于语义的声源定位方法,其特征在于,所述方法包括:/n利用波束成形技术对N个方向的音频信号进行增强,分别得到相应的N个增强音频结果,其中,N的取值为大于1的正整数;/n对所述N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值;/n从所述N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号;/n将所述目标音频信号所在方向确定为定位方向。/n

【技术特征摘要】
1.一种基于语义的声源定位方法,其特征在于,所述方法包括:
利用波束成形技术对N个方向的音频信号进行增强,分别得到相应的N个增强音频结果,其中,N的取值为大于1的正整数;
对所述N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值;
从所述N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号;
将所述目标音频信号所在方向确定为定位方向。


2.根据权利要求1所述的方法,其特征在于,所述N的取值大于等于6。


3.根据权利要求1所述的方法,其特征在于,所述N个方向包括:以全方位平面360°等间隔划分的N个方向。


4.根据权利要求1所述的方法,其特征在于,所述利用波束成形技术对N个方向的音频信号进行增强,包括:
利用麦克风阵列波束成形技术,通过多通道的语音增强算法对N个方向的音频信号进行增强。


5.根据权利要求1所述的方法,其特征在于,所述对所述N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值,包括:
利用关键词检测技术,对所述N个增强音频结果分别与目标关键词进行对比,得到相应的N个确信值。


6.根据权利要求1所述的方法,其特征在于,所述对所述N个增强音频结果分别与目标语义进行对比,得到相应的N个匹配度数值,包括:
利用语音识别技术,对所述N个增强音频结果分别与目...

【专利技术属性】
技术研发人员:刘立杰雷欣李志飞
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1