一种交互方法和设备技术

技术编号:21143748 阅读:27 留言:0更新日期:2019-05-18 05:56
本申请提供了一种交互方法和设备,其中,该方法包括:识别是否有对象面对交互设备且处于发声状态;在确定有对象面对所述交互设备且处于发生状态的情况下,获取所述对象的语音数据;根据所述语音数据建立所述对象与所述交互设备之间的交互。通过上述方式解决了现有的语音交互需要为语音设备设置唤醒词,通过唤醒词进行唤醒所存在的唤醒词数量少,且容易误唤醒的技术问题,达到了无需唤醒词即可实现远场语音交互的技术效果。

【技术实现步骤摘要】
一种交互方法和设备
本申请属于数据处理
,尤其涉及一种交互方法和设备。
技术介绍
随着语音识别技术的不断发展,越来越多的语音智能设备被研发和使用。目前语音交互方式主要有:远程语音交互方式和近场的手动触发方式。其中,远程语音交互方式一般是通过唤醒词唤醒设备,从而使得可以被唤醒的设备进行语音交互。例如,如图1所示,可以为某个设备设置一个唤醒词为“Miumiu”,那么当用户说出“Miumiu”并被该设备识别的时候,该设备就会被唤醒,从而使得用户可以与该设备进行语音交互,这这个过程中,不需要用户手动进行操作。其中,手动触发方式一般是在设备上设置一个按钮或者是触发按键,在用户点击该按钮或者按键的情况下,可以触发该设备开启语音交互功能,从而使得用户可以与该设备进行语音交互。然而,上述的远程语音交互方式和近场的手动触发方式都存在不同程度的问题,例如,远程语音容易受到环境噪音的干扰,会出现误唤醒。近场的手动触发方式每次都需要手动触发,因此操作不便,需要用户靠近设备才能操作,使用起来较为麻烦。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种交互方法和设备,可以实现无需唤醒词进行设备唤醒即可进行语音交互的目的。本申请提供一种交互方法和设备是这样实现的:一种交互方法,所述方法包括:识别是否有对象面对交互设备且处于发声状态;在确定有对象面对所述交互设备且处于发生状态的情况下,获取所述对象的语音数据;根据所述语音数据建立所述对象与所述交互设备之间的交互。一种交互方法,所述方法包括:识别是否有对象面对交互设备;在确定有对象面对所述交互设备且停留时长超出预设时长的情况下,建立所述对象与所述交互设备之间的交互。一种交互方法,所述方法包括:识别是否有对象面对交互设备;在确定有对象面对所述交互设备的情况下,建立所述对象与所述交互设备之间的交互。一种交互设备,包括:摄像头、麦克风阵列、处理器,其中,所述摄像头,用于获取图像;所述处理器,用于根据所述图像识别是否有对象面对交互设备且处于发声状态;所述麦克风阵列,用于在确定有对象面对所述交互设备且处于发声状态的情况下,获取所述对象的语音数据;所述处理器,用于根据所述语音数据建立所述对象与所述交互设备之间的交互。一种交互设备,包括:摄像头、麦克风阵列、处理器,其中,所述摄像头,用于获取图像;所述处理器,用于根据所述图像识别是否有对象面对交互设备且停留时长超出预设时长;所述麦克风阵列,用于在确定有对象面对所述交互设备且停留时长超出预设时长的情况下的情况下,获取所述对象的语音数据;所述处理器,用于根据所述语音数据建立所述对象与所述交互设备之间的交互。一种交互设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述方法的步骤。一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述方法的步骤。本申请提供的交互方法和设备,通过对象是否面向设备来确定用户的是否有与设备进行语音交互的意图,从而可以及时发现用户希望发起交互的意图,从而触发目标对象与交互设备之间的交互。通过上述方式解决了现有的交互需要为交互设备设置唤醒词,通过唤醒词进行唤醒所存在的唤醒词数量少,且容易误唤醒的技术问题,达到了无需唤醒词即可实现远场交互的技术效果。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是现有的基于唤醒词的远场语音交互示意图;图2是根据本申请实施例的语音交互系统的架构示意图;图3是根据本申请实施例的人机交互场景的逻辑实现示意图;图4是根据本申请实施例的确定是否建立语音交互示意图;图5是根据本申请实施例的预先设置摄像头覆盖范围示意图;图6是根据本申请实施例的语音交互示意图;图7是根据本申请实施例的购票场景交互示意图;图8是根据本申请实施例的交互方法的方法流程图;图9是根据本申请实施例的交互方法的另一方法流程图;图10是根据本申请实施例的终端设备的结构示意图;图11是根据本申请实施例的语音交互装置的结构框图;图12是根据本申请实施例的集中部署方式的架构示意图;图13是根据本申请实施例的大集中小双活的部署方式的架构示意图。。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。考虑到现有的基于唤醒词的语音交互方式,近似于人与人之间,A叫了B的名字,B通过A叫B名字这个操作,知道A在和他说话,从而触发语音交互。在B是一个智能设备的情况下,就需要为该智能设备设置一下唤醒词,例如:姓名、或者动作触发词等。这样就需要用户预先知道针对该智能设备的唤醒词,从而触发与该智能设备的语音交互。这样也就容易造成误唤醒,例如,用户无意间说了某个词,这个词恰好是该智能设备的唤醒词,但是用户并非要唤醒该设备,这样就会造成误唤醒。针对现有的语音交互方式所存在的需要预先设置唤醒词,以及会产生误唤醒风险的问题。考虑到基于人的正常的交流方式,其实并非是必须有唤醒词才能实现语音对话。采用面对面的方式,就可以自然触发对话。例如,A面向B,张嘴说话或者停留一段时间,或者打个手势招呼等,那么都可以认为A要与B进行对话。或者当用户站到某个设备前张嘴说话或者是停留一段时间,那么都可以认为该用户打算使用该设备所提供的功能。基于此,考虑到如果可以结合视觉识别来判断用户是否面向设备,那么可以确定出用户是否打算与设备进行语音交互,从而使得无需对设备进行唤醒,就可以实现与设备的语音交互。如图2所示,在本例中提供了一种语音交互系统,包括:一个或多个交互设备101、一个或多个用户102。上述语音设备可以是例如:智能音箱、聊天机器人、带有服务提供功能的机器人、或者是手机或者电脑等智能设备中安装的应用程序等等,具体以何种形式存在,本申请对此不作具体限定。如图3所示为基于图2的语音交互系统下进行语音交互的业务逻辑实现示意图,可以包括:1)硬件方面,可以包括:摄像头和麦克风阵列。其中,摄像头和麦克风阵列可以设置在如图1所示的语音设备101中,通过摄像头可以获取人像信息,基于获取的人像信息可以进一步确定出嘴所在的位置,从而可以确定出声音的来源位置,即,通过人像信息可以具体确定出发出声音的嘴的位置,这样也就确定了哪个方向过来的声音是需要获取的声音。在确定出哪个方向的声音是需要获取的声音之后,就可以通过麦克风阵列进行定向消噪,即,可以通过麦克风阵列对声源方向的声音进行加强,对非声源方向的噪声进行抑制。即,通过摄像头+麦克风阵列进行配合的方式,可以实现对声音的定向消噪。2)本地算法,可以包括基于人脸识别的算法和基于信号处理的算法。其中,基于人脸识别的算法可以用于确定出用户身份,可以用于识别用户五官的位置,识别用户是否面向本文档来自技高网
...

【技术保护点】
1.一种交互方法,其特征在于,所述方法包括:识别是否有对象面对交互设备且处于发声状态;在确定有对象面对所述交互设备且处于发生状态的情况下,获取所述对象的语音数据;根据所述语音数据建立所述对象与所述交互设备之间的交互。

【技术特征摘要】
1.一种交互方法,其特征在于,所述方法包括:识别是否有对象面对交互设备且处于发声状态;在确定有对象面对所述交互设备且处于发生状态的情况下,获取所述对象的语音数据;根据所述语音数据建立所述对象与所述交互设备之间的交互。2.根据权利要求1所述的方法,其特征在于,根据所述语音数据建立所述对象与所述交互设备之间的交互,包括:对所述语音数据进行语义分析;根据语义分析结果确定所述语音数据是否与所述交互设备相关;在确定相关的情况下,建立所述对象与所述交互设备之间的交互。3.根据权利要求1所述的方法,其特征在于,根据所述语音数据建立所述对象与所述交互设备之间的交互,包括:对所述语音数据进行语义分析;匹配出与语义分析结果匹配的操作指令;根据所述操作指令对所述交互设备进行控制。4.根据权利要求3所述的方法,其特征在于,所述操作指令包括以下至少之一:语音应答、界面显示、动作执行。5.根据权利要求1所述的方法,其特征在于,识别是否有对象面对交互设备且处于发声状态,包括:对所述交互设备的摄像头的覆盖范围实时进行对象监测;在监测到所述覆盖范围内有对象出现的情况下,对监测到的对象进行人脸识别;根据人脸识别结果确定对象是否面对所述交互设备且处于发声状态。6.根据权利要求5所述的方法,其特征在于,对监测到的对象进行人脸识别,包括:通过对所述监测到的对象进行嘴部特征点检测,确定所述监测到的对象是否处于发声状态。7.根据权利要求1至6中任一项所述的方法,其特征在于,获取所述对象的语音数据,包括:通过麦克风阵列获取对象的语音数据。8.一种交互方法,其特征在于,所述方法包括:识别是否有对象面对交互设备;在确定有对象面对所述交互设备且停留时长超出预设时长的情况下,建立所述对象与所述交互设备之间的交互。9.根据权利要求8所述的方法,其特征在于,识别是否有对象面对交互设备,包括:检测在预设范围区域内是否有对象;在确定所述预设范围区域内有对象的情况下,确定检测到的对象是否面对所述交互设备。10.根据权利要求9所述的方法,其特征在于,检测在预设范围区域内是否有对象,包括:通过在所述预设范围区域中设置的传感器检测在所述预设范围内是否有对象;和/或,通过红外探测仪检测在所述预设范围区域内是否有对象。11.根据权利要求9所述的方法,其特征在于,确定检测到的对象是否面对所述交互设备,包括:通过人脸识别确定检测到的对象是否面对所述交互设备。12.根据权利要求8所述的方法,其特征在于,在确定有对象面对所述交互设备且停留时长超出预设时长的情况下之后,所述方法还包括:确定所述对象是否处于发声状态;在确定所述对象处于发声状态的情况下,获取所述对象的语音数据;对所述语音数据进行语义分析;根据语义分析结果确定所述语音数据是否与所述交互设备相关;在确定相关的情况下,建立所述对象与所述交互设备之...

【专利技术属性】
技术研发人员:吴楠雷鸣
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1