智能设备的交互方法、装置、设备及存储介质制造方法及图纸

技术编号:26422399 阅读:34 留言:0更新日期:2020-11-20 14:18
本申请提出了一种智能设备的交互方法、装置、设备及存储介质,涉及语音识别、语音交互、自然语言处理和人机交互技术领域,具体实现方案为:接收用户的语音指令;根据语音指令进行意图预测以生成预测意图;当预测意图包括多模态交互意图时,生成多模态交互预指令并发送至多模态识别组件,以使多模态采集组件根据多模态交互预指令预采集多模态数据。根据本申请能够提高多模态交互效率,缩短用户进行多模态交互时的等待时延,提升用户体验。

【技术实现步骤摘要】
智能设备的交互方法、装置、设备及存储介质
本申请涉及数据处理
,尤其涉及语音识别、语音交互、自然语言处理和人机交互
,提出一种智能设备的交互方法、装置、设备及存储介质。
技术介绍
随着人机交互技术的进步,在智能设备上通过文字、语音、视觉、动作等多种方式进行多模态交互的人机交互场景越发常见,通过语音、视觉和动作的结合能够带来更多维度的用户体验和更多的产品交互形式。目前,在多模态交互过程中,由于硬件设备启动、执行等耗时较长,导致多模态交互中用户等待时间较长,交互效率有待提高。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出了一种智能设备的交互方法、装置、设备及存储介质。本申请第一方面实施例提出了一种智能设备的交互方法,其中,所述方法包括:接收用户的语音指令;根据所述语音指令进行意图预测以生成预测意图;当所述预测意图包括多模态交互意图时,生成多模态交互预指令并发送至多模态识别组件,以使多模态采集组件根据所述多模态交互预指令预采集多模态数据。本申请第二方面实施例提出了一种智能设备的交互装置,其中,所述装置包括:接收模块,用于接收用户的语音指令;预测模块,用于根据所述语音指令进行意图预测以生成预测意图;启动模块,用于当所述预测意图包括多模态交互意图时,生成多模态交互预指令并发送至多模态识别组件,以使多模态采集组件根据所述多模态交互预指令预采集多模态数据。本申请第三方面实施例提出了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面实施例所述的智能设备的交互方法。本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面实施例所述的智能设备的交互方法。上述申请中的一个实施例具有如下优点或有益效果:由于采用了对语音指令进行意图预测以生成预测意图,当预测意图包括多模态交互意图时启动多模态采集组件采集多模态数据,能够提高多模态交互效率,缩短用户进行多模态交互时的等待时延。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请实施例所提供的一种智能设备的交互方法的流程示意图;图2为本申请实施例所提供的另一种智能设备的交互方法的流程示意图;图3为本申请实施例所提供的另一种智能设备的交互方法的流程示意图;图4为本申请实施例所提供的一种多模态交互的应用场景示意图;图5为本申请实施例所提供的一种智能设备的交互装置的结构示意图;图6为本申请实施例所提供的另一种智能设备的交互装置的结构示意图;图7示出了适于用来实现本申请实施例的示例性电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1为本申请实施例所提供的一种智能设备的交互方法的流程示意图。本申请实施例的智能设备的交互方法,可以应用于智能设备。其中,智能设备包括语音识别组件、多模态识别组件和多模态采集组件。其中,多模态采集组件用于采集多模态数据,多模态采集组件例如包括摄像头。多模态识别组件用于对多模态数据进行处理,以生成多模态识别结果,其中,多模态识别组件例如包括可执行多模态识别算法的控制器。语音识别组件用于对语音指令进行识别,语音识别组件例如包括可执行语音识别算法的控制器。该智能设备可以是具有音频处理和语音交互功能的各种智能语音设备,例如智能音箱等。如图1所示,该方法包括:步骤101,接收用户的语音指令。本实施例中,用户在与智能设备进行语音交互时,对智能设备进行语音表达,进而,智能设备通过声音采集装置采集用户的语音指令。其中,声音采集装置例如为麦克风等。作为一种示例,用户对智能设备进行语音表达“我用手指的这个植物叫什么”,智能设备接收用户的语音指令为“我用手指的这个植物叫什么”。作为另一种示例,用户对智能设备进行语音表达“看我的动作对不对”,智能设备接收用户的语音指令为“看我的动作对不对”。需要说明的是,上述对智能设备接收用户的语音指令的说明仅为一种示例,上述语音指令可以是句子,也可以是字词,语音指令的形式不仅限于此,此处不作限制。步骤102,根据语音指令进行意图预测以生成预测意图。本实施例中,可以在接收语音指令的过程中,根据已接收的语音指令进行意图预测以生成预测意图。可选地,可以实时对接收的语音指令进行意图预测。可选地,可以获取预设时间间隔,每隔预设时间间隔对已接收的语音指令进行意图预测。可选地,可以获取已接收的语音指令对应的字符数量,当字符数量满足预设数量时,对语音指令进行意图预测。其中,预测意图可以包括多模态交互意图、非多模态交互意图。本实施例中,可以在接收语音指令的过程中,或者,在对语音指令进行意图识别的过程中,根据已接收的语音指令进行意图预测生成预测意图,进而通过预测意图获知用户是否有可能进行多模态交互。以语音指令为句子“我用手指的这个植物叫什么”为例,可以在接收完成整个句子之前,对已接收的部分“我用手指的这个”进行意图预测,以根据已接收的部分生成预测意图。步骤103,当预测意图包括多模态交互意图时,生成多模态交互预指令并发送至多模态识别组件,以使多模态采集组件根据多模态交互预指令预采集多模态数据。本实施例中,若生成的预测意图包括多模态交互意图,则确定用户可能进行多模态交互,生成多模态交互预指令并发送至多模态识别组件,以根据多模态交互预指令启动多模态采集组件。其中,由于预测意图可以在接收语音指令的过程中生成,通过在预测意图包括多模态交互意图时,提前启动多模态采集组件,能够减少用户等待组件硬件启动并执行所需花费的时间。可选地,多模态采集组件例如为摄像头。本实施例中,启动多模态采集组件后,通过多模态采集组件采集多模态数据,其中,多模态采集组件预采集的多模态数据可以暂时保存在本地。其中,多模态数据的类型有多种。作为一种示例,以多模态采集组件为摄像头为例,通过摄像头拍摄一帧或多帧图像,以采集图像数据作为多模态数据;或者,通过摄像头录制一段视频,以采集视频数据作为多模态数据。本实施例中,通过对语音指令进行意图预测以生成预测意图,当预测意图包括多模态交互意图时本文档来自技高网...

【技术保护点】
1.一种智能设备的交互方法,其中,所述方法包括:/n接收用户的语音指令;/n根据所述语音指令进行意图预测以生成预测意图;/n当所述预测意图包括多模态交互意图时,生成多模态交互预指令并发送至多模态识别组件,以使多模态采集组件根据所述多模态交互预指令预采集多模态数据。/n

【技术特征摘要】
1.一种智能设备的交互方法,其中,所述方法包括:
接收用户的语音指令;
根据所述语音指令进行意图预测以生成预测意图;
当所述预测意图包括多模态交互意图时,生成多模态交互预指令并发送至多模态识别组件,以使多模态采集组件根据所述多模态交互预指令预采集多模态数据。


2.如权利要求1所述的智能设备的交互方法,还包括:
对所述语音指令进行识别,以提取所述语音识别指令之中的用户意图;
如果所述预测意图和所述用户意图一致,则调用所述多模态识别组件对所述多模态数据进行处理以生成多模态识别结果。


3.如权利要求2所述的智能设备的交互方法,还包括:
如果所述预测意图和所述用户意图不一致,则将预采集的所述多模态数据删除。


4.如权利要求2所述的智能设备的交互方法,其中,所述根据所述语音指令进行意图预测以生成预测意图,包括:
对所述语音指令进行切词以生成多个分词;
依次对所述多个分词进行识别以生成所述分词的词性特征和词义特征;
当所述分词的词性特征和词义特征符合预设的指定代词或目的动词时,判断生成多模态交互意图。


5.如权利要求4所述的智能设备的交互方法,其中,所述对所述语音指令进行识别,以提取所述语音识别指令之中的用户意图,包括:
将所述多个分词输入至意图识别模型之中以生成所述用户意图。


6.权利要求2所述的智能设备的交互方法,在所述调用所述多模态识别组件对所述多模态数据进行处理以生成多模态识别结果之后,还包括:
延迟预设时间关闭所述多模态识别组件和多模态采集组件。


7.一种智能设备的交互装置,其中,所述装置包括:
接收模块,用于接收用户的语音指令;
预测模块,用于根据所述语音指令进行意图预测以生成预测意图;
启动模块,用于当所述预测意图包...

【专利技术属性】
技术研发人员:龙云翔
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1