一种基于影音定位技术的服务机器人降噪方法技术

技术编号:20007121 阅读:49 留言:0更新日期:2019-01-05 18:42
本发明专利技术公开一种基于影音定位技术的服务机器人降噪方法,针对服务机器人、自助设备应用中,将设备服务对象通过视觉、听觉、理解统一起来,根据视频内容反向决定是否处理及如何处理发音人信号,从而达到去除现场噪声,特别是不期望处理的周围人为噪声的目标。

A Noise Reduction Method for Service Robot Based on Audio-visual Location Technology

The present invention discloses a noise reduction method for service robot based on audio-visual positioning technology. In the application of service robot and self-service equipment, the service object of the equipment is unified through vision, hearing and understanding, and whether and how to process the speaker signal is decided in reverse according to the video content, so as to remove the field noise, especially the artificial noise around it that is not expected to be processed. Goals.

【技术实现步骤摘要】
一种基于影音定位技术的服务机器人降噪方法
本专利技术涉及一种基于影音定位技术的服务机器人降噪方法,属于人工智能与服务机器人领域。
技术介绍
服务机器人会话技术已广泛应用于导医机器人、金融大堂机器人、导购机器人等领域。现有的机器人麦克阵列技术也已经解决了环境噪声抑制、回声抑制、去混响、单或多声源定位、声源数目估计、源分离、鸡尾酒会效应等系列问题。当前,会话式人工智能技术普遍兴起,在新型人机交互过程中,周围人的发音对于构建人机会话系统构成了新的障碍,单纯从声音本身无法解决视觉目标与听觉目标的统一问题,从而造成无关人员的发音给人机交互过程带来不可区隔的影响,其本身就是影响正常会话的噪声干扰。为解决视觉目标与听觉目标统一定位与追随,标记或消除目标外的其它方向声音的干扰、干预,提出一种基于影音定位技术的服务机器人降噪方法。
技术实现思路
本专利技术要解决的技术问题是提供一种基于影音定位技术的服务机器人降噪方法,视觉目标与听觉目标统一定位与追随,标记或消除目标外的其它方向声音的干扰、干预。为了解决所述技术问题,本专利技术采用的技术方案是:一种基于影音定位技术的服务机器人降噪方法,包括以下步骤:S01)、通过深度影像识别人体或者人脸的方位特征信息,并对连续多帧方位检测信息做中值滤波处理;通过声源方位识别确定会话的目标人的方位特征信息,并对连续多帧方位检测信息做中值滤波处理;将深度影像感知到的人的位置与发音者音源的位置进行耦合实现影音综合定位,进而实现人的综合定位、特征识别与标记;S02)、降噪判断与预处理,通过影像定位场景中的人物与语音信号定位音源,将影像实体人物与音源耦合对应起来,形成现场发音人与其音源耦合对应起来,形成现场发音人与其音源的唯一标记,从而根据服务策略,过滤其它音源信号,达到去除人为噪声干扰的目的。进一步的,步骤S02中,过滤其它音源,去除人为噪声的具体做法为:判断标记音频信号与服务机器人的距离,若标记音频信号来自服务机器人影像范围内最近的服务对象,则认为是正常服务对象的发音;若标记音频信号频来自其它服务对象,则认为是人为噪声,进行降噪处理。进一步的,通过线性、环形等阵列采集语音信号,并通过麦克阵列硬件及算法识别音源的方向与距离;通过双目、景深等摄像头采集现场影像,并通过人体或者人脸检测识别现场人的方向和距离。进一步的,中值滤波时,对三维坐标每一维度分别做中值滤波处理。进一步的,耦合的方法为:判断中心点位置(X0,Y0,Z0)与人体中心点(X1,Y1,Z1)的两中心点之间的距离,若它们之间的欧式距离小于设置的误差值E,则将音源中心点与人体中心点耦合。进一步的,耦合的方法为:判断音源中心点位置(X0,Y0,Z0)与人体中心点(X1,Y1,Z1)的距离,若它们的距离在Z深度坐标系统内的距离小于设定误差值E0,同时在[X,Y]坐标系内小于设定误差值E1,则将音源中心点与人体中心点耦合。本专利技术的有益效果:本专利技术所述降噪方法主要是针对服务机器人、自助设备应用中,将设备服务对象通过视觉、听觉、理解统一起来,根据视频内容反向决定是否处理及如何处理发音人信号,从而达到去除现场噪声,特别是不期望处理的周围人为噪声的目标。附图说明图1为传统语音信号降噪的流程图;图2为本专利技术所述降噪方法的流程图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步的说明。噪声通常分为背景噪声和不期望人为噪声,本专利技术主要是针对不期望人为噪声的干扰,在本专利技术中,服务机器人对话过程中不期望人为噪声定义如下:服务机器人视野内追踪服务对象(特定人物)之外的声源。通过影像定位场景中的人物与语音信号定位音源,就可以将影像实体人物与音源对应起来,因为服务机器人主要为其视野内追踪服务对象提供对话服务,其它干扰声源(视为噪声)作为例外情况处理,从而达到去噪的目的。如图1所示,为传统语音信号降噪的流程图,传统方法是先收集语音信号,然后根据噪声显性或隐性特征进行去除噪声,最后将声音信号应用。在传统的语音信号降噪时,没有考虑不期望的认为噪声,导致无法去除。针对此问题,本实施例所述基于影音定位技术的服务人降噪方法,如图2所示,包括以下步骤:S01)、通过线性、环形等阵列采集语音信号,通过双目、景深等摄像头采集现场影像;S02)、通过麦克阵列硬件及算法识别音源的方向与距离,并对方位中心做中值滤波处理;通过人体检测(本实施例以人体检测为例,可用的技术手段还包括人脸检测识别等)识别现场人的方向和距离,并对方位中心点做中值滤波处理,追踪每个人并唯一标记;S03)、将采集到的音频的方位信息与人体的方位信息耦合,则将音频与人体方位信息唯一标记对应起来,形成标记的音频端或音频流,不能对应人体方位信息的音频原标记为特殊符号;S04)、通过对标记的音频信号进行识别与处理,过滤不期望处理的语音信号(或语音识别后的文本),从而达到去除人为干扰噪声的目的。具体处理方法为,若标记音频信号来自服务机器人影像范围内最近的服务对象,则人为是正常服务对象的发音;若标记音频信号来自其他服务对象,则认为是人为噪声,由其他系统处理。本实施例中,对语音信号或者现场影像的方位中心点进行中值滤波处理的方法为:对三维坐标每一纬度分别做中值滤波处理。本实施例中,语音信号与现场影像信号进行耦合的方法为:判断音源中心点位置(X0,Y0,Z0)与人体中心点(X1,Y1,Z1)的两中心点之间的距离,若他们之间的欧式距离小于设定的误差值E,则将音源中心点与人体中心点耦合。也可采用下列方式:判断音源中心点位置(X0,Y0,Z0)与人体中心点(X1,Y1,Z1)的距离,若它们的距离在Z深度坐标系统内的距离小于设定误差值E0,同时在[X,Y]坐标系内小于设定误差值E1,则将音源中心点与人体中心点耦合。本实施例所述降噪方法不仅适用于服务机器人人机会话去除人为干扰噪声问题,还适用于其他具有影音交互的智能设备。本实施例所述降噪方法主要是针对服务机器人、自助设备应用中,将设备服务对象通过视觉、听觉、理解统一起来,根据视频内容反向决定是否处理及如何处理发音人信号,从而达到去除现场噪声,特别是不期望处理的周围人为噪声的目标。以上描述的仅是本专利技术的基本原理和优选实施例,本领域技术人员根据本专利技术做出的改进和替换,属于本专利技术的保护范围。本文档来自技高网...

【技术保护点】
1.一种基于影音定位技术的服务机器人降噪方法,其特征在于:包括以下步骤:S01)、通过深度影像识别人体或者人脸的方位特征信息,并对连续多帧方位检测信息做中值滤波处理;通过声源方位识别确定会话的目标人的方位特征信息,并对连续多帧方位检测信息做中值滤波处理;将深度影像感知到的人的位置与发音者音源的位置进行耦合实现影音综合定位,进而实现人的综合定位、特征识别与标记;S02)、降噪判断与预处理,通过影像定位场景中的人物与语音信号定位音源,将影像实体人物与音源耦合对应起来,形成现场发音人与其音源耦合对应起来,形成现场发音人与其音源的唯一标记,从而根据服务策略,过滤其它音源信号,达到去除人为噪声干扰的目的。

【技术特征摘要】
1.一种基于影音定位技术的服务机器人降噪方法,其特征在于:包括以下步骤:S01)、通过深度影像识别人体或者人脸的方位特征信息,并对连续多帧方位检测信息做中值滤波处理;通过声源方位识别确定会话的目标人的方位特征信息,并对连续多帧方位检测信息做中值滤波处理;将深度影像感知到的人的位置与发音者音源的位置进行耦合实现影音综合定位,进而实现人的综合定位、特征识别与标记;S02)、降噪判断与预处理,通过影像定位场景中的人物与语音信号定位音源,将影像实体人物与音源耦合对应起来,形成现场发音人与其音源耦合对应起来,形成现场发音人与其音源的唯一标记,从而根据服务策略,过滤其它音源信号,达到去除人为噪声干扰的目的。2.根据权利要去1所述的基于影音定位技术的服务机器人降噪方法,其特征在于:步骤S02中,过滤其它音源,去除人为噪声的具体做法为:判断标记音频信号与服务机器人的距离,若标记音频信号来自服务机器人影像范围内最近的服务对象,则认为是正常服务对象的发音;若标记音频信号频来自其它服务对象,则认为是人为噪声,进行降噪处...

【专利技术属性】
技术研发人员:朱锦雷井焜赵耀张琨
申请(专利权)人:神思电子技术股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1