智能语音设备控制方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:34456486 阅读:37 留言:0更新日期:2022-08-06 17:03
本发明专利技术涉及一种智能语音设备控制方法、装置、计算机设备和存储介质,该方法包括:获取在视频采集范围内采集的图像;识别所述图像中的面部图像;根据所述面部图像,确定相应的视线方向;当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时,控制所述智能语音设备进入唤醒状态。本申请的方案提高了对智能语音设备唤醒处理的准确性。语音设备唤醒处理的准确性。语音设备唤醒处理的准确性。

【技术实现步骤摘要】
智能语音设备控制方法、装置、计算机设备和存储介质
[0001]本申请是于2018年01月03日提交中国专利局,申请号为2018100052080,专利技术名称为“智能语音设备控制方法、装置、计算机设备和存储介质”的分案申请,其全部内容通过引用结合在本申请中。


[0002]本专利技术涉及计算机
,特别是涉及一种智能语音设备控制方法、装置、计算机设备和存储介质。

技术介绍

[0003]随着科学技术的飞速发展,人工智能技术凭借其带来的良好的便利性,越来越受到大家的欢迎。一些人工智能产品应运而生。比如,智能音箱,用户可以对智能音箱讲话,来实现一系列的交互控制。
[0004]传统的在使用智能音箱进行交互控制时,智能音箱要采集语音数据,从采集的语音数据中识别关键词来进行激活,然而语音数据中往往具有大量的干扰音,比如,房间外的马路上的嘈杂音等,由于这些大量的干扰,会造成根据语音数据来激活智能音箱的准确率较低。

技术实现思路

[0005]基于此,有必要针对传统方法根据语音数据来激活智能音箱的准确率较低的问题,提供一种智能语音设备控制方法、装置、计算机设备和存储介质。
[0006]一种智能语音设备控制方法,所述方法包括:
[0007]全息智能语音成像设备对绑定的虚拟交互角色进行全息投影,以在全息智能语音成像设备上呈现三维全息虚拟交互角色;
[0008]获取在视频采集范围内采集的图像;
[0009]当在所述图像中识别到用户对象时,则控制所述三维全息虚拟交互角色始终保持朝向所述用户对象所表征的用户在现实场景中所处的方位;
[0010]在所述图像中所述用户对象对应的视线方向指向所述三维全息虚拟交互角色的情况下,控制所述全息智能语音成像设备进入唤醒状态。
[0011]一种智能语音设备控制装置,所述装置包括:
[0012]角色呈现模块,用于全息智能语音成像设备对绑定的虚拟交互角色进行全息投影,以在全息智能语音成像设备上呈现三维全息虚拟交互角色;
[0013]获取模块,用于获取在视频采集范围内采集的图像;
[0014]控制模块,用于当在所述图像中识别到用户对象时,则控制所述三维全息虚拟交互角色始终保持朝向所述用户对象所表征的用户在现实场景中所处的方位;在所述图像中所述用户对象对应的视线方向指向所述三维全息虚拟交互角色的情况下,控制所述全息智能语音成像设备进入唤醒状态。
[0015]一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
[0016]全息智能语音成像设备对绑定的虚拟交互角色进行全息投影,以在全息智能语音成像设备上呈现三维全息虚拟交互角色;
[0017]获取在视频采集范围内采集的图像;
[0018]当在所述图像中识别到用户对象时,则控制所述三维全息虚拟交互角色始终保持朝向所述用户对象所表征的用户在现实场景中所处的方位;
[0019]在所述图像中所述用户对象对应的视线方向指向所述三维全息虚拟交互角色的情况下,控制所述全息智能语音成像设备进入唤醒状态。
[0020]一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:
[0021]全息智能语音成像设备对绑定的虚拟交互角色进行全息投影,以在全息智能语音成像设备上呈现三维全息虚拟交互角色;
[0022]获取在视频采集范围内采集的图像;
[0023]当在所述图像中识别到用户对象时,则控制所述三维全息虚拟交互角色始终保持朝向所述用户对象所表征的用户在现实场景中所处的方位;
[0024]在所述图像中所述用户对象对应的视线方向指向所述三维全息虚拟交互角色的情况下,控制所述全息智能语音成像设备进入唤醒状态。
[0025]上述智能语音设备控制方法、装置、计算机设备和存储介质,全息智能语音成像设备对绑定的虚拟交互角色进行全息投影,以在全息智能语音成像设备上呈现三维全息虚拟交互角色,从而可以使用三维全息虚拟交互角色来与用户进行交互。获取在视频采集范围内采集的图像;当在所述图像中识别到用户对象时,则控制所述三维全息虚拟交互角色始终保持朝向所述用户对象所表征的用户在现实场景中所处的方位;在所述图像中所述用户对象对应的视线方向指向所述三维全息虚拟交互角色的情况下,控制全息智能语音成像设备进入唤醒状态。即,全息智能语音成像设备并非仅作为指令的接收者,而是能够全息投影出三维全息虚拟交互角色,并控制三维全息虚拟交互角色保持朝向用户所处方位,将视线检测与三维全息虚拟交互角色结合,在视线方向指向三维全息虚拟交互角色的情况下,对全息智能语音成像设备进行更为准确地唤醒控制。
附图说明
[0026]图1为一个实施例中智能语音设备控制方法的应用场景图;
[0027]图2为另一个实施例中智能语音设备控制方法的应用场景图;
[0028]图3为一个实施例中智能语音设备控制方法的流程示意图;
[0029]图4为一个实施例中智能语音设备的架构示意图;
[0030]图5为一个实施例中唤醒控制步骤的流程示意图;
[0031]图6为一个实施例中多个智能语音设备的场景示意图;
[0032]图7为一个实施例中多个智能语音设备场景下的智能语音设备控制方法的原理图;
[0033]图8为一个实施例中智能语音设备响应于语音控制的场景示意图;
[0034]图9为一个实施例中持续供电示意图;
[0035]图10为另一个实施例中智能语音设备控制方法的流程示意图;
[0036]图11为一个实施例中智能语音设备控制装置的框图;
[0037]图12为另一个实施例中智能语音设备控制装置的框图;
[0038]图13为又一个实施例中智能语音设备控制装置的框图;
[0039]图14为一个实施例中计算机设备的内部结构示意图。
具体实施方式
[0040]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0041]图1为一个实施例中智能语音设备控制方法的应用场景图。参照图1,该应用场景中包括通过网络连接的智能语音设备110和服务器120。其中,智能语音设备110是具备语音采集及输出功能、以及智能运算功能的设备。可以理解,智能语音设备110还可以具备其他功能,这里不作限定。智能语音设备110中可以包括视频采集装置和显示装置。视频采集装置用于采集图像,视频采集装置可以是摄像头。显示装置可用于显示虚拟交互角色。
[0042]在一个实施例中,智能语音设备110可以是全息智能语音成像设备,其中,全息智能语音成像设备,是具备全息成像功能的智能语音设备。本实施例中,智能语音设备110的显示装置可以包括全息显示装置,比如,液晶投影装置和全息膜。
[0043]在一个实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能语音设备控制方法,所述方法包括:全息智能语音成像设备对绑定的虚拟交互角色进行全息投影,以在全息智能语音成像设备上呈现三维全息虚拟交互角色;获取在视频采集范围内采集的图像;当在所述图像中识别到用户对象时,则控制所述三维全息虚拟交互角色始终保持朝向所述用户对象所表征的用户在现实场景中所处的方位;在所述图像中所述用户对象对应的视线方向指向所述三维全息虚拟交互角色的情况下,控制所述全息智能语音成像设备进入唤醒状态。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取语音数据;所述在所述图像中所述用户对象对应的视线方向指向所述三维全息虚拟交互角色的情况下,控制所述全息智能语音成像设备进入唤醒状态包括:在所述图像中所述用户对象对应的视线方向指向所述三维全息虚拟交互角色、且所述语音数据中存在预设唤醒词的情况下,控制所述全息智能语音成像设备进入唤醒状态。3.根据权利要求1所述的方法,其特征在于,所述当在所述图像中识别到用户对象时,则控制所述三维全息虚拟交互角色始终保持朝向所述用户对象所表征的用户在现实场景中所处的方位包括:当在所述图像中识别到用户对象时,则进入近场交互模式,并按照所述近场交互模式对应的交互处理逻辑,控制所述三维全息虚拟交互角色始终保持朝向所述用户对象所表征的用户在现实场景中所处的方位。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:当在所述图像中未识别到用户对象、且获取到语音数据时,则进入远场交互模式,则在获取的语音数据符合远场交互模式下的唤醒条件时,控制所述全息智能语音成像设备进入唤醒状态。5.根据权利要求4所述的方法,其特征在于,本地与绑定于所述虚拟交互角色的至少一个非本地的智能语音设备连接于同一网络;所述在获取的语音数据符合远场交互模式下的唤醒条件时,控制所述全息智能语音成像设备进入唤醒状态包括:在符合远场交互模式下的唤醒条件时,发送获取的语音数据至服务器;接收服务器返回的目标设备指定指令,所述目标设备指定指令是在所述语音数据与相似的语音数据相比音量最大时接收到,所述相似的语音数据为非本地的智能语音设备发送的与所述语音数据相似的语音数据;响应于所述目标设备指定指令,控制所述全息智能语音成像设备进入唤醒状态。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述当在所述图像中识别到用户对象时,则控制所述三维全息虚拟交互角色始终保持朝向所述用户对象所表征的用户在现实场景中所处的方位包括:识别所述图像中的用户对象位置;将所述用户对象位置映射为现实场景中的用户位置;控制所述三维全息虚拟交互角色的朝向,使所述朝向随着所述用户位置的移动而变
化、且保持始终朝向所述用户位置所处的方位。7.根据权利要求1所述的方法,其特征在于,还包括:获取包括命令语句的语音数据;在进入唤醒状态后,对所述命令语句进行语义分析;根据所述语义分析的结果,生成与所述命令语句相应的操作指令并执行。8...

【专利技术属性】
技术研发人员:梁栋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1