语音交互方法、装置、设备及系统制造方法及图纸

技术编号:35240567 阅读:7 留言:0更新日期:2022-10-19 09:45
公开了一种语音交互方法、装置、设备及系统。获取图像数据,图像数据包含表征设备所处场景的信息;基于图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户;当判定所述场景中存在所述用户,则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图;当检测到所述用户发出语音或所述用户具有发音意图,则启动针对所述设备的交互服务。由此,无需用户说出唤醒词即可激活设备的交互服务,且可以降低误唤醒率。且可以降低误唤醒率。且可以降低误唤醒率。

【技术实现步骤摘要】
语音交互方法、装置、设备及系统


[0001]本公开涉及语音交互领域,特别是涉及一种语音交互方法、装置、设备及系统。

技术介绍

[0002]语音交互是人机交互发展到目前的一种较为前沿的交互方式。语音交互就是用户通过自然语言给机器下指令,以达成自己的目的的过程。
[0003]现有技术中,语音唤醒是实现语音交互的前提。
[0004]语音唤醒是指由用户说出特定的唤醒词,设备响应于检测到用户说出唤醒词,从休眠状态切换到工作状态。设备被唤醒后才开始为用户提供语音交互服务,如将语音上传给云端进行语音识别和语义理解,然后根据识别结果执行相应反馈。
[0005]基于唤醒词的语音唤醒方式有悖于用户的语言表达习惯。并且,在多轮对话交互场景中,往往需要用户重复说出唤醒词以唤醒设备,该过程显得冗余且繁琐,影响用户交互体验。
[0006]通过在唤醒后设置一个免唤醒时长,可以在理论上减少用户说出唤醒词的次数。然而,这并非真正意义上的免唤醒。这是因为,用户无法感知免唤醒时长具体是多久,因而也就无法知道什么时候可以直接说话。从实际操作来讲,用户还是会继续说唤醒词;并且,设备持续开麦收音会造成大量的语音上传至云端,增加云端链路传输压力,相应增加误唤醒。
[0007]因此,需要一种行之有效的免唤醒语音交互方案。

技术实现思路

[0008]本公开要解决的一个技术问题是提供一种行之有效的免唤醒语音交互方案。
[0009]根据本公开的第一个方面,提供了一种语音交互方法,用以与一设备交互,包括:获取图像数据,图像数据包含表征设备所处场景的信息;基于图像数据判断场景中是否存在期望与设备进行语音交互的用户;当判定场景中存在用户,则检测用户是否发出语音以及/或者用户是否具有发音意图;当检测到用户发出语音或用户具有发音意图,则启动针对设备的交互服务。
[0010]根据本公开的第二个方面,提供了一种语音交互方法,包括:接收设备上传的音频数据,音频数据是设备在基于用于表征设备所处场景的图像数据判定场景中存在期望与设备进行语音交互的用户,且检测到用户发出语音或具有发音意图的情况下上传的;对音频数据进行语音识别;基于语音识别结果判断用户是否与设备进行语音交互;当判定用户未与设备进行语音交互,则向设备发送拾音终止指令。
[0011]根据本公开的第三个方面,提供了一种语音交互方法,包括:接收第一设备上传的音频数据,音频数据是第一设备在基于用于表征第二设备所处场景的图像数据判定场景中存在期望与第二设备进行语音交互的用户,且检测到用户发出语音或用户具有发音意图的情况下发送的;对音频数据进行语音识别;基于语音识别结果判断用户是否与第二设备进
行语音交互;当判定用户未与第二设备进行语音交互,则向第一设备发送拾音终止指令。
[0012]根据本公开的第四个方面,提供了一种语音交互方法,包括:基于用于表征设备所处场景的图像数据判断场景中是否存在期望与设备进行语音交互的用户;当判定场景中存在用户,则启动针对设备的交互服务。
[0013]根据本公开的第五个方面,提供了一种语音交互系统,包括:第一设备,用于对第一设备所处场景进行成像,基于得到的图像数据判断场景中是否存在期望与第一设备进行语音交互的用户,当判定场景中存在用户,则检测用户是否发出语音以及/或者用户是否具有发音意图,当检测到用户发出语音或用户具有发音意图,则将采集到的音频数据发送至服务器;服务器,用于接收第一设备发送的音频数据,对音频数据进行语音识别,基于语音识别结果判断用户是否与第一设备进行语音交互,当判定用户未与第一设备进行语音交互,则向第一设备发送拾音终止指令,第一设备还用于响应于接收到拾音终止指令,停止采集音频数据。
[0014]根据本公开的第六个方面,提供了一种语音交互系统,包括:第二设备;第一设备,与所述第二设备布置在同一场景中,所述第一设备用于对所述场景进行成像,基于得到的图像数据判断所述场景中是否存在期望与所述第二设备进行语音交互的用户,当判定所述场景中存在所述用户,则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图,当检测到所述用户发出语音或所述用户具有发音意图,则将采集到的音频数据上传至服务器;服务器,用于接收所述第一设备发送的音频数据,对所述音频数据进行语音识别,基于语音识别结果判断所述用户是否与所述第二设备进行语音交互,当判定所述用户未与所述第二设备进行语音交互,则向所述第一设备发送拾音终止指令,所述第一设备还用于响应于接收到所述拾音终止指令,停止采集音频数据。
[0015]根据本公开的第七个方面,提供了一种智能设备,包括:通信模块;拾音模块;成像模块,用于对所述智能设备所处场景进行成像,得到图像数据;处理器,用于基于所述图像数据判断所述场景中是否存在期望与所述智能设备进行语音交互的用户,当判定所述场景中存在所述用户,则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图,当检测到所述用户发出语音或所述用户具有发音意图,则通过所述通信模块将所述拾音模块采集到的音频数据上传至服务器,由所述服务器对所述音频数据进行语音识别。
[0016]根据本公开的第八个方面,提供了一种智能设备,适于与物联网设备布置在同一场景中,所述智能设备包括:通信模块;拾音模块;成像模块,用于对所述场景进行成像,得到图像数据;处理器,用于基于所述图像数据判断所述场景中是否存在期望与所述物联网设备进行语音交互的用户,当判定所述场景中存在所述用户,则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图,当检测到所述用户发出语音或所述用户具有发音意图,则通过所述通信模块将所述拾音模块采集到的音频数据上传至服务器,由所述服务器对所述音频数据进行语音识别。
[0017]根据本公开的第九个方面,提供了一种语音交互装置,包括:获取模块,用于获取图像数据,图像数据包含表征设备所处场景的信息;判断模块,用于基于图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户;检测模块,用于当判定所述场景中存在所述用户,则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图;启动模块,用于当检测到所述用户发出语音或所述用户具有发音意图,则启动针对所述设备的
交互服务。
[0018]根据本公开的第十个方面,提供了一种语音交互装置,包括:接收模块,用于接收设备上传的音频数据,所述音频数据是所述设备在基于用于表征设备所处场景的图像数据判定场景中存在期望与设备进行语音交互的用户,且检测到所述用户发出语音或具有发音意图的情况下上传的;语音识别模块,用于对所述音频数据进行语音识别;判断模块,用于基于语音识别结果判断所述用户是否与所述设备进行语音交互;发送模块,用于当判定所述用户未与所述设备进行语音交互,则向所述设备发送拾音终止指令。
[0019]根据本公开的第十一个方面,提供了一种语音交互装置,包括:接收模块,用于接收第一设备上传的音频数据,所述音频数据是所述第一设备在基于用于表征第二设备所处场景的图像数据判定场景中存在期望与第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音交互方法,用以与一设备交互,包括:获取图像数据,图像数据包含表征设备所处场景的信息;基于所述图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户;当判定所述场景中存在所述用户,则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图;当检测到所述用户发出语音或所述用户具有发音意图,则启动针对所述设备的交互服务。2.根据权利要求1所述的语音交互方法,其中,基于所述图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户的步骤包括:基于所述图像数据识别所述场景中用户的肢体动作;根据所述场景中用户的肢体动作的识别结果,判断所述场景中是否存在期望与所述设备进行语音交互的用户。3.根据权利要求1所述的语音交互方法,还包括:获取音频数据;其中,检测所述用户是否发出语音以及/或者所述用户是否具有发音意图的步骤包括:基于所述音频数据和/或所述图像数据,判断所述用户是否发出语音以及/或者所述用户是否具有发音意图。4.根据权利要求3所述的语音交互方法,其中,基于所述音频数据和/或所述图像数据判断所述用户是否发出语音以及/或者所述用户是否具有发音意图的步骤包括:基于所述图像数据确定用以识别所述用户的身份的属性信息;确定所述音频数据中语音数据的语音特征;判断所述语音特征所表征的用户身份是否与所述属性信息所表征的用户身份一致,当判断结果为一致,则判定所述用户发出语音。5.根据权利要求3所述的语音交互方法,其中基于所述音频数据和/或所述图像数据,判断所述用户是否发出语音以及/或者所述用户是否具有发音意图的步骤包括:对所述音频数据中的语音数据进行特征提取,得到语音特征数据;对所述图像数据中所述用户的脸部图像进行特征提取,得到脸部图像特征数据;将所述语音特征数据和所述脸部图像特征数据输入预先训练好的机器学习模型,得到所述机器学习模型输出的用于表征所述用户是否发出语音的识别结果。6.根据权利要求1所述的语音交互方法,其中,检测所述用户是否发出语音以及/或者所述用户是否具有发音意图的步骤包括:通过识别所述图像数据中所述用户的脸部动作或姿态,判断所述用户是否发出语音以及/或者所述用户是否具有发音意图。7.根据权利要求1所述的语音交互方法,其中,启动针对所述设备的交互服务的步骤包括:将采集到的音频数据上传至服务器,由所述服务器对所述音频数据进行语音识别,基于语音识别结果判断所述用户是否与所述设备进行语音交互;接收所述服务器下发的交互指令或拾音终止指令,其中,所述交互指令是所述服务器在判定所述用户与所述设备进行语音交互的情况下发送的,所述拾音终止指令是所述服务
器在判定所述用户未与所述设备进行语音交互的情况下发送的。8.根据权利要求7所述的语音交互方法,还包括:基于所述图像数据确定与所述用户的身份、动作以及姿态中的任一种相关的属性信息,其中,启动针对所述设备的交互服务的步骤还包括:将所述属性信息上传至服务器,由所述服务器基于所述属性信息对所述音频数据进行处理,以增强所述音频数据中与所述用户对应的音频部分,以及/或者由所述服务器基于所述语音识别结果和所述属性信息,判断所述用户是否与所述设备进行语音交互。9.根据权利要求1所述的语音交互方法,其中,所述图像数据由所述设备拍摄得到,或者所述图像数据由与所述设备处于同一场景中的其他设备拍摄得到。10.一种语音交互方法,包括:接收设备上传的音频数据,所述音频数据是所述设备在基于用于表征设备所处场景的图像数据判定场景中存在期望与设备进行语音交互的用户,且检测到所述用户发出语音或具有发音意图的情况下上传的;对所述音频数据进行语音识别;基于语音识别结果判断所述用户是否与所述设备进行语音交互;当判定所述用户未与所述设备进行语音交互,则向所述设备发送拾音终止指令。11.根据权利要求10所述的语音交互方法,还包括:当判定所述用户与所述设备进行语音交互,则通过对所述语音识别结果进行语义解析,识别用户操作意图,并向所述设备发送与所述用户操作意图对应的交互指令。12.根据权利要求10所述的语音交互方法,还包括:接收所述设备上传的属性信息,所述属性信息是基于所述图像数据确定的与所述用户的身份、动作以及姿态中的任一种相关的信息,其中,在对所述音频数据进行语音识别之前,该方法还包括:基于所述属性信息对所述音频数据进行处理,以增强所述音频数据中与所述用户对应的音频部分,以及/或者基于语音识别结果判断所述用户是否与所述设备进行语音交互的步骤包括:基于所述语音识别结果和所述属性信息,判断所述用户是否与所述设备进行语音交互。13.根据权利要求12所述的语音交互方法,其中,基于所述语音识别结果和所述属性信息判断所述用户是否与所述设备进行语音交互的步骤包括:将所述语音识别结果和所述属性信息输入预先训练好的人机对话意图识别模型,由所述人机对话意图识别模型判断所述用户是否与所述设备进行语音交互。14.一种语音交互方法,包括:接收第一设备上传的音频数据,所述音频数据是所述第一设备在基于用于表征第二设备所处场景的图像数据判定场景中存在期望与第二设备进行语音交互的用户,且检测到所述用户发出语音或所述用户具有发音意图的情况下发送的;对所述音频数据进行语音识别;基于语音识别结果判断所述用户是否与所述第二设备进行语音交互;当判定所述用户未与所述第二设备进行语音交互,则向所述第一设备发送拾音终止指
令。15.根据权利要求14所述的语音交互方法,还包括:当判定所述用户与所述第二设备进行语音交互,则通过对所述语音识别结果进行语义解析,识别用户操作意图,并向所述第二设备发送与所述用户操作意图对应的交互指令。16.一种语音交互方法,包括:基于用于表征设备所处场景的图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户;当判定所述场景中存在所述用户,则启动针对所述设备的交互服务。17.一种语音交互系统,包括:第一设备,用于对所述第一设备所处场景进行成像,基于得到的图像数据判断所述场景中是否存在期望与所述第一设备进行语音交互的用户...

【专利技术属性】
技术研发人员:王加芳陈浩楠吴纲律庄博宇李博韧古鉴
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1