一种声音处理方法、交互设备技术

技术编号:21118052 阅读:30 留言:0更新日期:2019-05-16 09:42
本申请提供了一种声音处理方法、交互设备,其中,该方法包括:基于声音对象的实时图像,确定声音对象相对于交互设备的声源位置;根据所述声源位置,对所述声音对象的声音数据进行声音增强。通过上述方案解决了现有的在嘈杂环境下无法有效消噪的问题,达到了有效抑制噪声,提升语音识别准确性的技术效果。

A Sound Processing Method and Interactive Device

【技术实现步骤摘要】
一种声音处理方法、交互设备
本申请属于数据处理
,尤其涉及一种声音处理方法、交互设备。
技术介绍
随着语音识别技术的不断发展,语音交互已经被越来越多的使用。目前语音交互方式主要有:远场语音交互方式和近场的手动触发方式。针对远场语音交互而言,语音数据的清晰度和准确度对语音交互识别的准确性有着重要的影响。然而,在很多语音交互的场景中,例如在机场、火车站、地铁站、商场等地方,会存在很多人说话的声音、车辆行驶所产生的声音、广播播报的声音,以及大封闭空间产生的混响等等,都是噪声的产生源,且这些噪声的声音都比较大,环境比较操作,受到嘈杂环境的影响往往会使得语音交互的准确度下降。现有的语音厂商,一般都是通过麦克风阵列获取语音,这种方式是无法解决“强噪音公众场合”这种特殊场景下的语音交互中所存在的噪声问题的。针对如何消除噪声,提升语音交互识别的准确性,目前尚未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种声音处理方法、交互设备,可以有效消除噪声,提升嘈杂场景语音识别的准确度。本申请提供一种声音处理方法、交互设备是这样实现的:一种声音处理方法,包括:基于声音对象的实时图像,确定声音对象相本文档来自技高网...

【技术保护点】
1.一种声音处理方法,其特征在于,包括:基于声音对象的实时图像,确定声音对象相对于交互设备的声源位置;根据所述声源位置,对所述声音对象的声音数据进行声音增强。

【技术特征摘要】
1.一种声音处理方法,其特征在于,包括:基于声音对象的实时图像,确定声音对象相对于交互设备的声源位置;根据所述声源位置,对所述声音对象的声音数据进行声音增强。2.根据权利要求1所述的方法,其特征在于,基于声音对象的实时图像,确定声音对象相对于交互设备的声源位置,包括:确定所述声音对象是否面向设备;在确定面向设备的情况下,确定所述声音对象的发声部位相对于所述交互设备的水平角度和垂直角度;将所述发声部位相对于所述交互设备的水平角度和垂直角度作为所述声源位置。3.根据权利要求2所述的方法,其特征在于,确定所述声音对象的发声部位相对于所述交互设备的水平角度和垂直角度,包括:将摄像头的可视角度形成圆弧;对所述圆弧进行等分操作,以等分点在摄像画面上的投影作为刻度;确定目标对象的发声部位在所述摄像画面上所处的刻度;将确定的刻度对应的角度作为所述发声部位相对于所述交互设备的水平角度和垂直角度。4.根据权利要求2所述的方法,其特征在于,确定所述声音对象的发声部位相对于所述交互设备的水平角度和垂直角度,包括:确定声音对象的标志区域在摄像画面中的大小,其中,所述发声部位位于所述标志区域中;根据所述标志区域在摄像画面中的大小,确定出所述声音对象距离摄像头的距离;根据所述距离,通过反三角函数计算得到所述发声部位相对于所述交互设备的水平角度和垂直角度。5.根据权利要求1所述的方法,其特征在于,根据所述声源位置,对所述声音对象的声音数据进行声音增强,包括:对所述声源位置来的声音进行定向加强;对非所述声源位置来的声音进行定向抑制。6.根据权利要求1所述的方法,其特征在于,根据所述声源位置,对所述声音对象的声音数据进行声音增强,包括:通过麦克风阵列对所述声音数据进行定向消噪。7.根据权利要求6所述的方法,其特征在于,所述麦克风阵列包括以下至少之一:指向型麦克风阵列、全向型麦克风阵列。8.根据权利要求1所述的方法,其特征在于,基于声音对象的实时图像,确定声音对象相对于交互设备的声源位置,包括:在检测到有多个对象发出声音的情况下,按照以下规则之一确定声音对象:将与所述交互设备直线距离最近的对象作为声音对象;将偏向所述交互设备的角度最大的对象作为声音对象。9.一种交互设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至8中任一项所述方法的步骤。10.一种...

【专利技术属性】
技术研发人员:吴楠余涛田彪
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1