人机交互控制方法及装置、智能机器人及存储介质制造方法及图纸

技术编号:25915979 阅读:28 留言:0更新日期:2020-10-13 10:35
本发明专利技术涉及人机交互控制方法、系统、智能机器人及存储介质,其中,方法包括,获取音频信号;判断获取的音频信号中是否有语音;当判断获取的音频信号中含有语音时,继续获取音频信号,并同步获取预设方向的现场图像,直至判断当前采集的语音已经完结;对获取的现场图像进行人眼视线检测,获取人眼状态数据;判断人眼状态数据是否符合注视状态,如果结果为是,则确定人眼所属用户具有交互意图。本申请提供的人机交互控制方案,可以对用户的交互意图进行识别判断,避免了对环境噪音以及非交互意图的用户进行交互,可以提升人机交互体验;并能有效降低不必要的数据处理,降低系统开销。

【技术实现步骤摘要】
人机交互控制方法及装置、智能机器人及存储介质
本专利技术涉及人机交互领域,特别是涉及一种人机交互控制方法及装置、智能机器人及存储介质。
技术介绍
随着人工智能技术的不断发展,越来越多的场景采用了人工智能技术,与用户进行交互,以提升服务的效率,降低用户等待时间,改善用户体验。其中,人脸识别和语音识别,因为比较贴合人们正常的交流习惯,而在人机交互中占有重要的地位。目前的人机交互过程中,机器人只要识别到人脸,或者,接收到语音,就会进行反馈。也就是说,机器人默认,识别到的用户,就是具有交互意图的用户。然而在实际场景中,机器人一般放置在人流量较大的场所内,可能会同时存在多人说话的声音,甚至还会有其他机器播报的声音。受到图像/音频的获取角度、获取范围以及用户随机出现的特点的影响,机器人识别的人脸可能是路过的或者远处的用户,接收到的语音可能是远处的人声或者机器人的播报声音。机器人无法确定识别到的用户是否具有交互的意图,而会导致随机响应的混乱现象,极大的影响了人机交互的体验。同时,因为无法确定识别到的用户是否具有交互的意图,机器人会对大量无关的图像/语音进行响应,导致机器人进行了很多不必要的数据处理,增加了系统开销。
技术实现思路
基于此,有必要针对现有人机交互过程中无法确定识别到的用户是否具有交互意图,而存在的人机交互体验差、系统开销大的问题,提供一种人机交互控制方法及装置、智能机器人及存储介质。本申请一实施例提供了一种人机交互控制方法,包括:获取音频信号;判断获取的音频信号中是否有语音;当判断获取的音频信号中含有语音时,继续获取音频信号,并同步获取预设方向的现场图像,直至判断当前采集的语音已经完结;对获取的现场图像进行人眼视线检测,获取人眼状态数据;判断人眼状态数据是否符合注视状态,如果结果为是,则确定人眼所属用户具有交互意图。在一些实施例中,所述获取音频信号的步骤,具体为,当在预设区域内检测到用户时,获取音频信号。在一些实施例中,所述当在预设区域内检测到用户时,获取音频信号的步骤,具体包括:采集音频信号和图像;对采集的图像进行人脸检测;当采集的图像中检测到人脸时,输出采集的音频信号。在一些实施例中,所述当在预设区域内检测到用户时,获取音频信号的步骤,具体包括:采集音频信号和图像,获取声源的方位;对采集的图像进行人脸检测;当采集的图像中检测到人脸时,计算人脸所在方位;当判断声源的方位与人脸所在方位保持一致时,输出采集的音频信号。在一些实施例中,所述方法还包括:对获取的音频信号进行响应。在一些实施例中,所述判断人眼状态数据是否符合注视状态,如果结果为是,则确定人眼所属用户具有交互意图的步骤,具体包括:计算符合注视状态的人眼状态数据所属的现场图像帧与现场图像的总帧数之间的比值;当该比值超过预设门槛比例值时,确定人眼所属用户具有交互意图。本申请一实施例还提供了一种人机交互控制装置,包括:音频拾取单元,用于获取音频信号;语音判别单元,用于判断获取的音频信号中是否有语音;同步采集单元,用于当判断获取的音频信号中含有语音时,继续获取音频信号,并同步获取预设方向的现场图像,直至判断当前采集的语音已经完结;视线检测单元,用于对获取的现场图像进行人眼视线检测,获取人眼状态数据;交互意图判定单元,用于判断人眼状态数据是否符合注视状态,如果结果为是,则确定人眼所属用户具有交互意图。在一些实施例中,所述人脸检测单元所述同步采集单元,还用于实时拍摄现场图像,并进行缓存;当语音判别单元判断获取的音频信号中含有语音时,所述同步采集单元从缓存的数据中,读取预设方向的现场图像。本申请另一实施例提供了一种智能机器人,包含前述任一项实施例所述的人机交互控制装置。本申请一实施例还提供了一种机器可读存储介质,其上存储有计算机程序,其中所述计算机程序在由处理器执行时实现前述任一项实施例所述的人机交互控制方法。本申请实施例提供的人机交互控制方法,首先对获取的音频信号进行语音的检测,只有检测有语音时,才会进行人眼视线检测,通过人眼的注视状态的判断,来判断是否有用户具有交互意图;只有判断认为用户具有交互意图时,才会对音频信号进行响应。本申请提供的人机交互控制方法,通过人眼视线检测,可以对用户的交互意图进行识别判断,避免了对环境噪音以及非交互意图的用户进行交互,可以提升人机交互体验;并能有效降低不必要的数据处理,降低系统开销。附图说明图1为本申请一实施例的人机交互控制方法的流程示意图;图2为本申请另一实施例的人机交互控制方法的流程示意图;图3为本申请一实施例的人机交互控制装置的架构示意图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施方式及实施方式中的特征可以相互组合。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本专利技术。如图1所示,本申请一实施例公开了人机交互控制方法,包括:S100,获取音频信号;人机交互控制方法,可以由一个系统来执行,也可以由一个智能机器人来执行。下面以智能机器人作为执行主体为例,对本实施例的人机交互控制方法做具体描述。可以理解的是,人机交互控制方法,也可以由一个人机交互控制装置来执行,该系统可以设置在相互通信连接的前端和后台上,前端可以是直接面向用户的智能机器人,后台可以是用于处理数据的服务器。智能机器人上可以设置有音频拾取单元,比如麦克风,用于获取音频信号。在一些实施例中,智能机器人可以具有明显的交互方向,只有当用户处于智能机器人的交互方向上时,该用户才有更大的可能具有交互意图。智能机器人上的音频拾取单元,可以具体采用定向麦克风阵列,只能获取预设方向上的音频信号。为了降低其他方向上的音频的干扰,在获取预设方向上的音频信号时,还可以对预设方向上的音频信号进行增强,对其他方向的音频信号进行抑制。在一些实施例中,一些用户可能并不会注意智能机器人的交互方向,为了避免遗漏掉此类具有交互意图,但不在智能机器人的交互方向的用户,智能机器人的音频拾取单元,也可以获取全部方向上的音频信号,而不限定在特定方向上。同时,音频拾取单元,还可以获得声源的方位,以便于后续处理时,能够让智能机器人转向声源的方位,面对用户,获取对应方位的现场图像,以及对音频信号进行响应,提升人机交互体验。由于声音可以传播较远的距离,在一些情况下,用户可能在距离智能机器人较远的位置说话,但是声音可以传播到智能机器人所在位置,而被智能机器人采集到。这种情况下,由于用户并没有在智能机器人的附近,用户并没有交本文档来自技高网
...

【技术保护点】
1.一种人机交互控制方法,其特征在于,包括:/n获取音频信号;/n判断获取的音频信号中是否有语音;/n当判断获取的音频信号中含有语音时,继续获取音频信号,并同步获取预设方向的现场图像,直至判断当前采集的语音已经完结;/n对获取的现场图像进行人眼视线检测,获取人眼状态数据;/n判断人眼状态数据是否符合注视状态,如果结果为是,则确定人眼所属用户具有交互意图。/n

【技术特征摘要】
1.一种人机交互控制方法,其特征在于,包括:
获取音频信号;
判断获取的音频信号中是否有语音;
当判断获取的音频信号中含有语音时,继续获取音频信号,并同步获取预设方向的现场图像,直至判断当前采集的语音已经完结;
对获取的现场图像进行人眼视线检测,获取人眼状态数据;
判断人眼状态数据是否符合注视状态,如果结果为是,则确定人眼所属用户具有交互意图。


2.根据权利要求1所述的人机交互控制方法,其特征在于,所述获取音频信号的步骤,具体为,当在预设区域内检测到用户时,获取音频信号。


3.根据权利要求2所述的人机交互控制方法,其特征在于,所述当在预设区域内检测到用户时,获取音频信号的步骤,具体包括:
采集音频信号和图像;
对采集的图像进行人脸检测;
当采集的图像中检测到人脸时,输出采集的音频信号。


4.根据权利要求2所述的人机交互控制方法,其特征在于,所述当在预设区域内检测到用户时,获取音频信号的步骤,具体包括:
采集音频信号和图像,获取声源的方位;
对采集的图像进行人脸检测;
当采集的图像中检测到人脸时,计算人脸所在方位;
当判断声源的方位与人脸所在方位保持一致时,输出采集的音频信号。


5.根据权利要求1所述的人机交互控制方法,其特征在于,所述方法还包括:对获取的音频信号进行响应。


6.根据权...

【专利技术属性】
技术研发人员:王华洋黄华周院平孙信中矫人全
申请(专利权)人:南京奥拓电子科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1