人机交互控制方法及装置、智能机器人及存储介质制造方法及图纸

技术编号：25915979 阅读：28 留言：0更新日期：2020-10-13 10:35

本发明专利技术涉及人机交互控制方法、系统、智能机器人及存储介质，其中，方法包括，获取音频信号；判断获取的音频信号中是否有语音；当判断获取的音频信号中含有语音时，继续获取音频信号，并同步获取预设方向的现场图像，直至判断当前采集的语音已经完结；对获取的现场图像进行人眼视线检测，获取人眼状态数据；判断人眼状态数据是否符合注视状态，如果结果为是，则确定人眼所属用户具有交互意图。本申请提供的人机交互控制方案，可以对用户的交互意图进行识别判断，避免了对环境噪音以及非交互意图的用户进行交互，可以提升人机交互体验；并能有效降低不必要的数据处理，降低系统开销。

全部详细技术资料下载

【技术实现步骤摘要】
人机交互控制方法及装置、智能机器人及存储介质
本专利技术涉及人机交互领域，特别是涉及一种人机交互控制方法及装置、智能机器人及存储介质。
技术介绍
随着人工智能技术的不断发展，越来越多的场景采用了人工智能技术，与用户进行交互，以提升服务的效率，降低用户等待时间，改善用户体验。其中，人脸识别和语音识别，因为比较贴合人们正常的交流习惯，而在人机交互中占有重要的地位。目前的人机交互过程中，机器人只要识别到人脸，或者，接收到语音，就会进行反馈。也就是说，机器人默认，识别到的用户，就是具有交互意图的用户。然而在实际场景中，机器人一般放置在人流量较大的场所内，可能会同时存在多人说话的声音，甚至还会有其他机器播报的声音。受到图像/音频的获取角度、获取范围以及用户随机出现的特点的影响，机器人识别的人脸可能是路过的或者远处的用户，接收到的语音可能是远处的人声或者机器人的播报声音。机器人无法确定识别到的用户是否具有交互的意图，而会导致随机响应的混乱现象，极大的影响了人机交互的体验。同时，因为无法确定识别到的用户是否具有交互的意图，机器人会对大量无关的图像/语音进行响应，导致机器人进行了很多不必要的数据处理，增加了系统开销。
技术实现思路
基于此，有必要针对现有人机交互过程中无法确定识别到的用户是否具有交互意图，而存在的人机交互体验差、系统开销大的问题，提供一种人机交互控制方法及装置、智能机器人及存储介质。本申请一实施例提供了一种人机交互控制方法，包括：获取音频信号；判断获取的音频...

【技术保护点】
1.一种人机交互控制方法，其特征在于，包括：/n获取音频信号；/n判断获取的音频信号中是否有语音；/n当判断获取的音频信号中含有语音时，继续获取音频信号，并同步获取预设方向的现场图像，直至判断当前采集的语音已经完结；/n对获取的现场图像进行人眼视线检测，获取人眼状态数据；/n判断人眼状态数据是否符合注视状态，如果结果为是，则确定人眼所属用户具有交互意图。/n

【技术特征摘要】
1.一种人机交互控制方法，其特征在于，包括：
获取音频信号；
判断获取的音频信号中是否有语音；
当判断获取的音频信号中含有语音时，继续获取音频信号，并同步获取预设方向的现场图像，直至判断当前采集的语音已经完结；
对获取的现场图像进行人眼视线检测，获取人眼状态数据；
判断人眼状态数据是否符合注视状态，如果结果为是，则确定人眼所属用户具有交互意图。

2.根据权利要求1所述的人机交互控制方法，其特征在于，所述获取音频信号的步骤，具体为，当在预设区域内检测到用户时，获取音频信号。

3.根据权利要求2所述的人机交互控制方法，其特征在于，所述当在预设区域内检测到用户时，获取音频信号的步骤，具体包括：
采集音频信号和图像；
对采集的图像进行人脸检测；
当采集的图像中检测到人脸时，输出采集的音频信号。

4.根据权利要求2所述的人机交互控制方法，其特征在于，所述当在预设区域内检测到用户时，获取音频信号的步骤，具体包括：
采集音频信号和图像，获取声源的方位；
对采集的图像进行人脸检测；
当采集的图像中检测到人脸时，计算人脸所在方位；
当判断声源的方位与人脸所在方位保持一致时，输出采集的音频信号。

5.根据权利要求1所述的人机交互控制方法，其特征在于，所述方法还包括：对获取的音频信号进行响应。

6.根据权...

【专利技术属性】
技术研发人员：王华洋，黄华，周院平，孙信中，矫人全，
申请(专利权)人：南京奥拓电子科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人