基于眼球和语音指令的操作设备的方法和系统及服务器技术方案

技术编号：26652030 阅读：68 留言：0更新日期：2020-12-09 00:54

本发明专利技术公开了一种基于眼球和语音指令的操作设备的方法和系统及服务器。系统包括移动终端和服务器及AR/VR装置；移动终端用于将采集的用户语音和用户位置以及用户标识UID发送到服务器；服务器用于对用户语音进行识别和解析，获取唤醒词和指令，如果唤醒词和UID设定的唤醒词一致，则根据用户位置确定附近的可操作设备；AR/VR装置用于对可操作设备进行显示，并进行眼球跟踪以检测用户的注视点；服务器还用于根据用户的注视点确定目标设备，从而向目标设备发送指令。本发明专利技术通过语音和眼球指令来操作多个设备，唤醒词与设备无关，可解决多个设备场景下语音唤醒存在干扰和唤醒词难以记忆的问题，且适用于VR/AR场景。

全部详细技术资料下载

【技术实现步骤摘要】
基于眼球和语音指令的操作设备的方法和系统及服务器
本专利技术涉及语音识别和语音控制
，具体涉及一种基于眼球和语音指令的操作设备的方法和系统及服务器。
技术介绍
语音识别(SpeechRecognition)技术，也被称为自动语音识别(AutomaticSpeechRecognition，ASR)，其目标是将语音中的内容(Content)转换为计算机可读的输入，例如按键、二进制编码或者字符序列(text)并进行相应的操作。语音唤醒在学术上被称为keywordspotting(简称KWS)，一个定义：在连续语流中实时检测出说话人特定片段。这里要注意，检测的“实时性”是一个关键点，语音唤醒的目的就是将设备从休眠状态激活至运行状态，所以唤醒词说出之后，能立刻被检测出来，用户的体验才会更好。评价语音唤醒的效果，通行的指标有四个方面，即唤醒率、误唤醒、响应时间和功耗水平。语音唤醒可以看做是语音识别的一个特定的应用场景，一般而言，语音唤醒可以看成是一个特定词(针对一个特定系统或者设备)的语音识别任务(其他的词无论是否...

【技术保护点】
1.一种基于眼球和语音指令的操作设备的系统，用于操控多个设备，其特征在于，所述系统包括：移动终端和服务器以及AR/VR装置；/n所述移动终端，用于采集用户语音，确定用户位置，并将采集的用户语音和用户位置以及用户标识UID发送到所述服务器；/n所述服务器，用于接收所述移动终端发送的用户语音和用户位置以及用户标识UID，对用户语音进行识别，对识别结果进行解析，获取唤醒词和指令，如果检测到唤醒词和所述UID设定的唤醒词一致，则根据用户位置确定位于用户附近的可操作设备，将包含可操作设备信息的显示内容发送给所述AR/VR装置；/n所述AR/VR装置，用于对可操作设备进行多设备显示，并对用户进行眼球跟踪，...

【技术特征摘要】
1.一种基于眼球和语音指令的操作设备的系统，用于操控多个设备，其特征在于，所述系统包括：移动终端和服务器以及AR/VR装置；
所述移动终端，用于采集用户语音，确定用户位置，并将采集的用户语音和用户位置以及用户标识UID发送到所述服务器；
所述服务器，用于接收所述移动终端发送的用户语音和用户位置以及用户标识UID，对用户语音进行识别，对识别结果进行解析，获取唤醒词和指令，如果检测到唤醒词和所述UID设定的唤醒词一致，则根据用户位置确定位于用户附近的可操作设备，将包含可操作设备信息的显示内容发送给所述AR/VR装置；
所述AR/VR装置，用于对可操作设备进行多设备显示，并对用户进行眼球跟踪，将检测到的用户的注视点信息发送到所述服务器；
所述服务器，还用于根据所述AR/VR装置的显示内容和用户的注视点信息确定用户想要操作的目标设备，然后，响应于用户语音，向所述目标设备发送所述指令，以指示所述目标设备执行相应的操作。

2.根据权利要求1所述的系统，其特征在于，
所述AR/VR装置，还用于采集用户视角，将采集的用户视角发送到所述服务器；
所述服务器，还用于在根据用户位置确定位于用户附近的可操作设备时，结合用户视角，找出位于用户附近且用户视角范围内的设备作为可操作设备。

3.根据权利要求2所述的系统，其特征在于，
所述服务器，还用于对用户语音进行声纹识别，当用户语音的声纹属于所述UID时，才对识别结果进行解析并进行响应的操作。

4.一种基于眼球和语音指令的操作设备的方法，用于操控多个设备，其特征在于，所述方法包括：
移动终端采集用户语音，确定用户位置，并将采集的用户语音和用户位置以及用户标识UID发送到服务器；
服务器接收所述移动终端发送的用户语音和用户位置以及用户标识UID，对用户语音进行识别；
服务器对识别结果进行解析，获取唤醒词和指令；
服务器如果检测到唤醒词和所述UID设定的唤醒词一致，则根据用户位置确定位于用户附近的可操作设备；
服务器将包含可操作设备信息的显示内容发送到AR/VR装置进行多设备显示；
AR/VR装置对用户进行眼球跟踪...

【专利技术属性】
技术研发人员：黄石磊，刘轶，程刚，
申请(专利权)人：深圳市北科瑞声科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人