本发明专利技术实施例公开了一种智能设备的交互方法、装置、智能设备和存储介质。该方法包括:若本机设备处于休眠状态,且依据本机设备中摄像头实时采集的图像信息和/或本机设备中音频设备实时采集的音频信息确定本机设备的当前工作区域中有交互用户,则控制所述本机设备处于工作状态,且将所述交互用户的方位确定为目标方位;定向采集所述目标方位的音频信息;识别并响应所述音频信息对应的控制指令。使得用户与智能设备之间的交互更加自然和拟人化,就像人与人之间的交流沟通一样,可以更自然的唤醒智能设备,提升用户体验和交互效率。同时,在目标方位上进行采集信息,得到的音频信息更准确,增加交互的准确和流畅性。
【技术实现步骤摘要】
智能设备的交互方法、装置、智能设备和存储介质
本专利技术实施例涉及计算机
,尤其涉及一种智能设备的交互方法、装置、智能设备和存储介质。
技术介绍
随着互联网、人工智能、语音识别、语义判断的技术水平飞速发展,使得人机互动达到基本可用的状态,诸如智能机器人之类的智能设备广泛应用于各个领域。现有的智能设备唤醒方式主要有:(1)通过按压物理按键唤醒。由于每次的人机交互都按压物理键,以至于用户在语音的交互过程还需要手动操作,导致体验不佳,且交互不便。(2)通过说唤醒词唤醒。虽说比物理按键方式便捷,且在第一轮语音交互时没问题。但是在多轮的语音交互过程,每轮语音交互都需说唤醒词,这种交互方式是有违人们的自然语言沟通习惯,在用户感知上不够智能,在用户交互上繁琐重复。通过唤醒词进行智能硬件的唤醒或者通过物理按键的方式进行唤醒,这两种方式不智能且繁复,用户体验差。
技术实现思路
本专利技术实施例提供一种智能设备的交互方法、装置、智能设备和存储介质,使得用户与智能设备的交互更加自然和拟人化,提升用户体验和交互效率。第一方面,本专利技术实施例提供了一种智能设备的交互方法,所述方法包括:若本机设备处于休眠状态,且依据本机设备中摄像头实时采集的图像信息和/或本机设备中音频设备实时采集的音频信息确定本机设备的当前工作区域中有交互用户,则控制所述本机设备处于工作状态,且将所述交互用户的方位确定为目标方位;定向采集所述目标方位的音频信息;识别并响应所述音频信息对应的控制指令。第二方面,本专利技术实施例还提供了一种智能设备的交互装置,所述装置包括:目标方位确定模块,用于若本机设备处于休眠状态,且依据本机设备中摄像头实时采集的图像信息和/或本机设备中音频设备实时采集的音频信息确定本机设备的当前工作区域中有交互用户,则控制所述本机设备处于工作状态,且将所述交互用户的方位确定为目标方位;音频信息采集模块,用于定向采集所述目标方位的音频信息;控制指令响应模块,用于识别并响应所述音频信息对应的控制指令。第三方面,本专利技术实施例还提供了一种智能设备,所述智能设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所述的一种智能设备的交互方法。第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本专利技术任意实施例所述的一种智能设备的交互方法。本专利技术实施例处于休眠状态的智能设备通过根据采集的图像和/或音频信息确定是否有交互用户,如果有交互用户,则进入工作状态并确定目标方位,在目标方位进行音频的采集和响应,使得用户与智能设备之间的交互更加自然和拟人化,就像人与人之间的交流沟通一样,可以更自然的唤醒智能设备,提升用户体验和交互效率。同时,在目标方位上进行采集信息,得到的音频信息更准确,增加交互的准确和流畅性。附图说明图1是本专利技术实施例一中的一种智能设备的交互方法的流程图;图2是本专利技术实施例二中的一种智能设备的交互方法的流程图;图3是本专利技术实施例三中的一种智能设备的交互方法的流程图;图4是本专利技术实施例四中的一种智能设备的交互方法的流程图;图5是本专利技术实施例五中的一种智能设备的交互方法的流程图;图6是本专利技术实施例六中的一种智能设备的交互方法的流程图;图7是本专利技术实施例七中的一种智能设备的交互装置的结构示意图;图8是本专利技术实施例七中的另一种智能设备的交互装置的结构示意图;图9是本专利技术实施例八中的一种智能设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种智能设备的交互方法的流程图,本实施例可适用于用户与机器人或智能设备与进行交互的情况,例如用户想要唤醒机器人或让机器人执行某种操作等,该方法可以由一种智能设备的交互装置来执行,该客装置可通过软件和/或硬件实现。如图1所示,该方法包括:S110、若本机设备处于休眠状态,且依据本机设备中摄像头实时采集的图像信息和/或本机设备中音频设备实时采集的音频信息确定本机设备的当前工作区域中有交互用户,则控制所述本机设备处于工作状态,且将所述交互用户的方位确定为目标方位。其中,本机设备可以是具有通信能力、摄像功能、麦克风、图像识别和语音识别功能的智能设备。本机设备可以是用户交互的主体对象,例如智能机器人,用户可以通过与智能机器人进行交互,实现对智能机器人的控制,比如控制智能机器人执行信息查询或多媒体文件播放等。交互用户是要与本机设备进行交互对话的用户。在本实施例中,在处于休眠状态的过程中,本机智能设备的摄像头和/或音频设备保持实时采集信息,除了摄像头和音频设备之外的其他功能模块处于非工作状态。在处于工作状态过程中,本机设备上的硬件、应用程序或功能都可以运行或使用。当本机设备处于工作状态时,可以执行与用户进行交互,包括采集、识别以及响应用户的音频信息等操作。其中,工作区域是指本机设备能够与用户进行交互的区域范围,如果在对应的工作区域内有交互用户,则可以进行后续的信息采集和识别等操作。例如,可以将本机设备一定距离范围内的区域作为工作区域,不同的本机设备由于工作类别或本机设备中的硬件设备性能条件不同,工作区域范围可以不同。示例性的,可以预先设定本机设备采集信息的范围,例如可以预设采集5米内的图像和音频信息,机器人可以自主识别五米内有效人声并识别内容。当然,如果本机设备处于一个房间中,比如智能机器人,相应的,其工作区域便可以为该屋子的范围,如果识别到在该房间内有交互用户,则可以控制本机设备处于工作状态。另外,也可以将本机设备上摄像头的采集区域作为本机设备的工作区域。一般的,摄像头,可以是广角摄像头、可旋转摄像头或其他类型的摄像头,采集到的图像信息可以包括本机设备周围的环境图像;音频设备,比如麦克风采集到的音频信息可以包括本机设备周围的环境声音。示例性的,如果采集到的图像信息包括人脸图像和/或采集到的音频信息中包括人声,则可以确定当前工作区域内有交互用户,即可以识别为有用户想要跟本机设备进行交互,则控制本机设备处于工作状态,同时将所述交互用户的方位确定为目标方位。其中,交互用户的方位可以是用户的方向,具体的方位可以基于本机设备的位置为参考点确定。比如交互用户在本机设备的正北方位或东北方位等。目标方位即是交互用户所在的方位,以便于在目标方位与交互用户进行进一步的交互。S120、定向采集所述目标方位的音频信息。其中,定向采集可以是在目标方位上对音频信息进行采集,即可以只对某一个方位上的音频信息采集。定向采集信息在一定程度上可以减少本机设备采集到的信息量,同时在与用户交互过程中采集到的无关的环境声音、噪音等也会减少,相应的,减小识别音频信息的计算量。S130、识别并响应所述音频信息对应的控制指令。上述定向采集音频信息可以减少本机设备在对音频信息进行处理、识别过程中的计算量,从而提高交互速度和准确度。其中,控制指令可以是用于对本机设备进行相关操作对应的指令,比如关机、启动某本文档来自技高网...
【技术保护点】
1.一种智能设备的交互方法,其特征在于,包括:若本机设备处于休眠状态,且依据本机设备中摄像头实时采集的图像信息和/或本机设备中音频设备实时采集的音频信息确定本机设备的当前工作区域中有交互用户,则控制所述本机设备处于工作状态,且将所述交互用户的方位确定为目标方位;定向采集所述目标方位的音频信息;识别并响应所述音频信息对应的控制指令。
【技术特征摘要】
1.一种智能设备的交互方法,其特征在于,包括:若本机设备处于休眠状态,且依据本机设备中摄像头实时采集的图像信息和/或本机设备中音频设备实时采集的音频信息确定本机设备的当前工作区域中有交互用户,则控制所述本机设备处于工作状态,且将所述交互用户的方位确定为目标方位;定向采集所述目标方位的音频信息;识别并响应所述音频信息对应的控制指令。2.根据权利要求1所述的方法,其特征在于,依据本机设备中摄像头实时采集的图像信息确定本机设备的当前工作区域中有交互用户,包括:若本机设备中摄像头实时采集的图像信息中包括用户正脸图像,且所述用户正脸图像的唇部状态发生变化,则将所述用户正脸图像所属的用户作为交互用户。3.根据权利要求1所述的方法,其特征在于,依据本机设备中摄像头实时采集的图像信息和本机设备中音频设备实时采集的音频信息,确定本机设备的当前工作区域中有交互用户,包括:若依据本机设备中摄像头实时采集的图像信息确定本机设备的当前工作区域中不存在用户,则通过本机设备中音频设备实时采集环境音频信息;若所述环境音频信息的分贝大于分贝阈值,且成功识别所述环境音频信息的语义,则将所述环境音频信息的发声人作为交互用户。4.根据权利要求1所述的方法,其特征在于,识别并响应所述音频信息对应的控制指令之前,还包括:依据本机设备播放的音频信号的频率和/或振幅,对采集的音频信息做回声消除处理。5.根据权利要求1所述的方法,其特征在于,识别并响应所述音频信息对应的控制指令之后,还包括:若依据摄像头实时采集的图像信息确定所述交互用户的位置移动,则控制摄像头旋转使所述摄像头朝向所述交互用户的正脸。6.根据权利要求1所述的方法,其特征在于,识别并响应所述音频信息对应的控制指令之后,还包括:若依据实时采集的图像信息确定所述交互用户处于说话状态,则采集所述交互用户的新...
【专利技术属性】
技术研发人员:李士岩,李扬,吴准,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。