一种多维感知交互方法技术

技术编号:37394930 阅读:26 留言:0更新日期:2023-04-27 07:32
本发明专利技术公开一种多维感知交互方法,涉及人机交互技术领域,其实现涉及终端计算机、服务器、网络交换机、两个图像传感器、以及内置于服务器的人机交互检测算法和人机交互策略;通过终端计算机选择人机交互方式:语音交互/头部动作交互/手势动作交互/按键交互;选择交互方式后,其中一个图像传感器检测到人物后,通过网络交换机获取终端计算机通过拾音器采集的音频数据/获取另一个图像传感器采集的视频数据/获取终端计算机外连键盘的按键指令,并传送至服务器;服务器接收数据或按键指令,通过人机交互检测算法对接收数据或按键指令进行解析,随后根据解析结果进入对应的指令操控模式/对话问答模式。本方法可应用于展厅。本方法可应用于展厅。本方法可应用于展厅。

【技术实现步骤摘要】
一种多维感知交互方法


[0001]本专利技术涉及人机交互
,具体的说是一种多维感知交互方法。

技术介绍

[0002]在展厅、展馆、展会、博物馆等场景或区域环境复杂,要让观众更好了解展品,需要提供定制化的、不同音色、不同速度、不同角度的讲解,需要大量熟练掌握展品信息的讲解员。但是现今每年有数万场展会,不有计其数的展馆、展品,找到满足要求的讲解员是不可实现的。
[0003]而使用基于图像的人、物品识别、人体姿态识别、手势动作识别、人脸识别、头部动作识别,基于声音的语音识别等人工智能技术,数据库、网络、显示等计算机技术的多维感知交互方法是一种有效的解决方法。

技术实现思路

[0004]本专利技术针对现有技术存在缺陷,提供一种多维感知交互方法。
[0005]本专利技术提供一种多维感知交互方法,解决上述技术问题采用的技术方案如下:
[0006]一种多维感知交互方法,该方法的实现涉及终端计算机、服务器、网络交换机、两个图像传感器、以及内置于服务器人机交互检测算法和人机交互策略,其中,终端计算机具有触摸显示屏幕,终端计算机外连有键盘、扬声器和拾音器;
[0007]通过终端计算机的触摸显示屏幕选择人机交互方式:语音交互/头部动作交互/手势动作交互/按键交互;
[0008]选择语音交互方式后,其中一个图像传感器在目标区域检测到人物后,通过网络交换机向终端计算机发送指令,使终端计算机能够接收拾音器采集的音频数据,并存储于服务器;
[0009]选择头部动作交互或手势动作交互后,其中一个图像传感器在目标区域检测到人物后,通过网络交换机接收另一个图像传感器采集的视频数据,并存储于服务器;
[0010]选择按键交互方式后,其中一个图像传感器在目标区域检测到人物后,通过网络交换机获取终端计算机外连键盘的按键指令,并传送至服务器;
[0011]服务器接收数据或按键指令,通过人机交互检测算法对接收数据或按键指令进行解析,随后根据解析结果进入对应的指令操控模式/对话问答模式。
[0012]可选的,所涉及人机交互检测算法包括人物识别检测算法、语音检测算法、人脸识别检测算法、人体姿态检测算法、按键控制算法;
[0013]人机交互策略包括对话问答模式、头部动作操控模式、手势动作操控模式、按键操控模式,其中,按键操控模式借助终端计算机的键盘实现;
[0014]选择语音交互方式并完成数据采集后,服务端调用与语音交互相对应的语音检测算法解析数据,并根据解析结果进入对话问答模式;
[0015]选择头部动作交互并完成数据采集后,服务端调用与头部动作交互相对应的人脸
识别检测算法解析数据,并根据解析结果进入头部动作操控模式;
[0016]选择手势动作交互并完成数据采集后,服务端调用与手势动作交互相对应的人体姿态检测算法解析数据,并根据解析结果进入手势动作操控模式;
[0017]选择按键交互方式后,终端计算机获取键盘的按键指令,并通过网络交换机传送至服务器,服务端调用按键控制算法解析按键指令,并根据解析结果进入按键操控模式。
[0018]进一步可选的,两个图像传感器具体为广角相机和正面相机;
[0019]广角相机对目标区域进行拍摄,并通过网络交换机将拍摄的视频数据传送至服务器,服务器内置的人物识别检测算法检测到目标区域出现人物时,通过网络交换机向终端计算机发送指令,使终端计算机能够接收拾音器采集的音频数据,或者,通过网络交换机接收正面相机采集的视频数据,并存储于服务器。
[0020]优选的,人物识别检测算法采用Yolov3算法。
[0021]进一步可选的,人脸识别检测算法采用BlazeFaceNet算法;
[0022]选择头部动作交互并完成数据采集后,服务器通过BlazeFaceNet算法对视频数据进行人脸检测,并检测到人脸的左眼、右眼、鼻子、左嘴角、右嘴角五个部分的坐标;
[0023]根据人脸五个部位坐标之间相对位置的变化,在设定时间内,

判断人脸从正面、向左摆动、摆正的动作,即判定为一个完整动作,将该动作匹配为头部动作操控模式的一个后退指令,

判断人脸从正面、向右摆动、摆正的动作,即判定为一个完整动作,将该动作匹配为头部动作操控模式的一个前进指令,

判断人脸从正面、向下摆动、摆正的动作,即判定为一个完整动作,将该动作匹配为头部动作操控模式的一个确认指令;

判断人脸未发生摆动时,将该动作匹配为头部动作操控模式的一个退出指令。
[0024]进一步可选的,人体姿态检测算法采用TinyPose算法;
[0025]选择手势动作交互并完成数据采集后,服务器通过TinyPose算法对视频数据进行手臂姿态检测,检测到某张图像中人体的头、脖子、右肩、右肘、右腕、左肩、左肘、左腕、右胯、右膝、右踝、左胯、左膝、左踝共计14个关键点,并提取左肩、左肘、左腕、右肩、右肘、右腕6个关键点的坐标信息;
[0026]将左肩、左肘、左腕三个关键点连接成三角形,将右肩、右肘、右腕三个关键点连接成三角形,在设定时间内,判断任意三角形的变化,

三角形中的最高点向上移动,将该动作匹配为手势动作操控模式的一个确认指令,

三角形中的最高点向右移动,将该动作匹配为手势动作操控模式的一个前进指令,

三角形中的最高点向左移动,将该动作匹配为手势动作操控模式的一个后退指令,

三角形中的最高点左右移动,将该动作匹配为手势动作操控模式的一个退出指令。
[0027]进一步可选的,语音检测算法采用Automatic Speech Recognition算法,
[0028]选择语音交互方式并完成数据采集后,服务器通过Automatic Speech Recognition算法对音频数据进行检测,并识别成文字,并根据识别结果进入对话问答模式;
[0029]人机进行对话问答模式时,服务端采用自然语言文本问答算法去问答数据库中查找与识别文字相匹配的答案,并传送至终端计算机,显示于触摸显示屏,同时通过扬声器播放。
[0030]进一步可选的,服务端采用自然语言文本问答算法去问答数据库中查找与识别文
字相匹配的答案的具体操作为:
[0031]基于Automatic Speech Recognition算法的识别文字,使用jieba分词法进行分词,提取所识别文字里面的名词实体、动词、副词,去掉语气词,对代词进行替换,重新组成句子,随后将句子送入bert算法模型,得到与意思表达最接近问答数据库中的问题语句,根据问答数据库中的提问语句找到与之匹配的答案。
[0032]本专利技术的一种多维感知交互方法,与现有技术相比具有的有益效果是:
[0033]本专利技术可以选择不同的人机交互模式,实现多种方式的人机交互,满足展厅、展馆、展会、博物馆等场景的物品介绍,或特殊人群,如聋本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多维感知交互方法,其特征在于,该方法的实现涉及终端计算机、服务器、网络交换机、两个图像传感器、以及内置于服务器人机交互检测算法和人机交互策略,其中,终端计算机具有触摸显示屏幕,终端计算机外连有键盘、扬声器和拾音器;通过终端计算机的触摸显示屏幕选择人机交互方式:语音交互/头部动作交互/手势动作交互/按键交互;选择语音交互方式后,其中一个图像传感器在目标区域检测到人物后,通过网络交换机向终端计算机发送指令,使终端计算机能够接收拾音器采集的音频数据,并存储于服务器;选择头部动作交互或手势动作交互后,其中一个图像传感器在目标区域检测到人物后,通过网络交换机接收另一个图像传感器采集的视频数据,并存储于服务器;选择按键交互方式后,其中一个图像传感器在目标区域检测到人物后,通过网络交换机获取终端计算机外连键盘的按键指令,并传送至服务器;服务器接收数据或按键指令,通过人机交互检测算法对接收数据或按键指令进行解析,随后根据解析结果进入对应的指令操控模式/对话问答模式。2.根据权利要求1所述的一种多维感知交互方法,其特征在于,所述人机交互检测算法包括人物识别检测算法、语音检测算法、人脸识别检测算法、人体姿态检测算法、按键控制算法;所述人机交互策略包括对话问答模式、头部动作操控模式、手势动作操控模式、按键操控模式,其中,按键操控模式借助终端计算机的键盘实现;选择语音交互方式并完成数据采集后,服务端调用与语音交互相对应的语音检测算法解析数据,并根据解析结果进入对话问答模式;选择头部动作交互并完成数据采集后,服务端调用与头部动作交互相对应的人脸识别检测算法解析数据,并根据解析结果进入头部动作操控模式;选择手势动作交互并完成数据采集后,服务端调用与手势动作交互相对应的人体姿态检测算法解析数据,并根据解析结果进入手势动作操控模式;选择按键交互方式后,终端计算机获取键盘的按键指令,并通过网络交换机传送至服务器,服务端调用按键控制算法解析按键指令,并根据解析结果进入按键操控模式。3.根据权利要求2所述的一种多维感知交互方法,其特征在于,两个图像传感器具体为广角相机和正面相机;广角相机对目标区域进行拍摄,并通过网络交换机将拍摄的视频数据传送至服务器,服务器内置的人物识别检测算法检测到目标区域出现人物时,通过网络交换机向终端计算机发送指令,使终端计算机能够接收拾音器采集的音频数据,或者,通过网络交换机接收正面相机采集的视频数据,并存储于服务器。4.根据权利要求3所述的一种多维感知交互方法,其特征在于,所述人物识别检测算法采用Yolov3算法。5.根据权利要求2所述的一种多维感知交互方法,其特征在于,所述人脸识别检测算法采用BlazeFaceNet算法;选择头部动作交互并完成数据采集后,服务器通过BlazeFaceNet算法对视频数据进行人脸检测,并检测到人脸的左眼、右眼、鼻子、左嘴角、右嘴角五个部分的坐标;
根据人脸五...

【专利技术属性】
技术研发人员:王安军牛玉峰陈亮甫
申请(专利权)人:西安超越申泰信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1