人机交互方法、语音处理方法及设备技术

技术编号:24760280 阅读:62 留言:0更新日期:2020-07-04 10:07
本申请实施例提供一种人机交互方法、语音处理方法及设备。其中,方法包括如下的步骤:采集用户发出的语音信息;确定所述用户在发出所述语音信息时的脸部朝向信息;根据所述脸部朝向信息,确定是否需要对所述语音信息作出相应的响应。本申请实施例提供的技术方案中,不仅能够降低误识别率,还能避免现有技术中因每轮会话时需唤醒设备导致的用户与设备交流的效率低下以及自然度较差等问题。

Human computer interaction method, speech processing method and equipment

【技术实现步骤摘要】
人机交互方法、语音处理方法及设备
本申请涉及电子
,尤其涉及一种人机交互方法、语音处理方法及设备。
技术介绍
随着语音识别技术和自然语音处理技术的发展,与电子设备进行语音对话等方式可有效减少用户交互成本,方便用户使用。目前,市面上的智能音箱、智能手机中的语音助手都可以实现与用户进行语音对话功能。现有技术中,为了降低误识别率,在与用户完成一轮会话后,智能音箱就会进行休眠处理,即智能音箱进入休眠状态;若用户还想继续与智能音箱进行会话,用户还需要通过唤醒词唤醒智能音箱。也就是说,用户与智能音箱的每轮会话都需要喊一下唤醒词,影响用户与设备交流的效率和自然。
技术实现思路
鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的人机交互方法、语音处理方法及设备。于是,在本申请的一个实施例中,提供了一种人机交互方法。该方法包括:采集用户发出的语音信息;获取所述用户在发出所述语音信息时的脸部朝向信息;基于所述脸部朝向信息,确定是否需要对所述语音信息作出相应的响应。于是,在本申请的又一个实施例中,提供了一种语音处理方法。该方法包括:采集用户发出的语音信息;确定所述用户在发出所述语音信息时的脸部朝向信息;基于所述脸部朝向信息,确定所述语音信息是否为所述用户的语音指令。在本申请的另一实施例中,提供了一种人机交互方法。该方法包括:在完成一轮会话后,保持唤醒状态以等待采集用户再次发出的语音信息;采集到所述用户再次发出的语音信息时,获取在所述用户发出所述语音信息时采集的图像信息;基于所述图像信息,确定是否需要对所述语音信息作出相应的响应。在本申请的又一实施例中,提供了一种电子设备。该电子设备,包括:第一存储器、第一处理器和第一音频组件,其中,所述第一存储器,用于存储程序;所述第一音频组件,与所述第一处理器耦合,用于采集用户发出的语音信息;所述第一处理器,与所述第一存储器耦合,用于执行所述第一存储器中存储的所述程序,以用于:确定所述用户在发出所述语音信息时的脸部朝向信息;根据所述脸部朝向信息,确定是否需要对所述语音信息作出相应的响应。在本申请的又一实施例中,提供了一种电子设备。该电子设备,包括:第三存储器、第三处理器和第三音频组件,其中,所述第三存储器,用于存储程序;所述第三音频组件,与所述第三处理器耦合,用于采集用户发出的语音信息;所述第三处理器,与所述第三存储器耦合,用于执行所述第三存储器中存储的所述程序,以用于:确定所述用户在发出所述语音信息时的脸部朝向信息;基于所述脸部朝向信息,确定所述语音信息是否为所述用户的语音指令。在本申请的又一实施例中,提供了一种电子设备。该电子设备,包括:第二存储器、第二处理器和第二音频组件,其中,所述第二存储器,用于存储程序;所述第二音频组件,与所述第二处理器耦合;所述第二处理器,与所述第二存储器耦合,用于执行所述第二存储器中存储的所述程序,以用于:在完成一轮会话后,保持唤醒状态以由所述第二音频组件等待采集用户再次发出的语音信息;所述第二音频组件采集到所述用户再次发出的语音信息时,获取在所述用户发出所述语音信息时采集的图像信息;基于所述图像信息,确定是否需要对所述语音信息作出相应的响应。本申请实施例提供的技术方案中,在采集到用户发出的语音信息时,根据用户在发出语音信息时的脸部朝向信息,能够准确判断出用户是否有交互意愿。因此,根据脸部朝向信息来判断是否做出响应,可降低误识别率。与现有技术相比,本申请实施例提供的技术方案,不仅能够降低误识别率,还能避免现有技术中因每轮会话时需唤醒设备导致的用户与设备交流的效率低下以及自然度较差等问题。本申请实施例提供的技术方案中,在采集到用户发出的语音信息时,根据用户在发出语音信息时的脸部朝向信息,能够准确判断出用户是否有交互意愿。因此,根据脸部朝向信息来判断采集到的语音信息是否为语音指令,可降低误识别率。与现有技术相比,本申请实施例提供的技术方案,不仅能够降低误识别率,还能避免现有技术中因每轮会话时需唤醒设备导致的用户与设备交流的效率低下以及自然度较差等问题。本申请实施例提供的技术方案中,在与用户完成一轮会话后,会保持唤醒状态以等待采集用户再次发出的语音信息。为了避免误响应用户发出的语音信息,会结合图像来判断用户是否有交互意愿,从而确定是否响应。可见,本申请实施例提供的技术方案,不仅能保证用户与设备交流的效率和自然,还能降低误响应率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的人机交互方法的流程示意图;图2为本申请又一实施例提供的人机交互方法的流程示意图;图3为本申请一实施例提供的人机交互装置的结构框图;图4为本申请又一实施例提供的人机交互装置的结构框图;图5为本申请一实施例提供的电子设备的结构框图;图6为本申请又一实施例提供的电子设备的结构框图;图7为本申请又一实施例提供的语音处理方法的流程示意图;图8为本申请又一实施例提供的语音处理装置的结构框图;图9为本申请又一实施例提供的电子设备的结构框图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。现有技术中,为了降低误识别率,在与用户完成一轮会话后,设备就会进行休眠处理,不再接受用户的语音信息,例如:用户说:智能音箱(唤醒词),今天天气怎么样,电子设备进入唤醒状态并回答出今天天气如何后,该轮会话结束,智能音箱进入休眠状态;当用户还想继续与设备进行会话时,用户还需要再次唤醒设备才能进行语音指令输入,例如:用户还想询问:今天有什么新闻,则用户需说:智能音箱(唤醒词),今天有什么新闻。也就是说,用户与设备的每轮会话都需要喊一下唤醒词,这必然影响用户与设备交流的效率和自然,拟人效果较差。本申请实施例提供了一种结合摄像头来判断用户是否有交互意愿,只有在判断出用户有交互意本文档来自技高网
...

【技术保护点】
1.一种人机交互方法,其特征在于,包括:/n采集用户发出的语音信息;/n确定所述用户在发出所述语音信息时的脸部朝向信息;/n根据所述脸部朝向信息,确定是否需要对所述语音信息作出相应的响应。/n

【技术特征摘要】
1.一种人机交互方法,其特征在于,包括:
采集用户发出的语音信息;
确定所述用户在发出所述语音信息时的脸部朝向信息;
根据所述脸部朝向信息,确定是否需要对所述语音信息作出相应的响应。


2.根据权利要求1所述的方法,其特征在于,所述脸部朝向信息包括:面部朝向;
根据所述脸部朝向信息,确定是否需要对所述语音信息作出相应的响应,包括:
所述面部朝向为第一方向时,确定需要对所述语音信息作出相应的响应。


3.根据权利要求2所述的方法,其特征在于,所述脸部朝向信息还包括:视觉朝向;
所述面部朝向为第一方向时,确定需要对所述语音信息作出相应的响应,包括:
所述面部朝向和所述视觉朝向均为第一方向时,确定需要对所述语音信息作出相应的响应。


4.根据权利要求1至3中任一项所述的方法,其特征在于,确定所述用户在发出所述语音信息时的脸部朝向信息,包括:
获取在所述用户发出所述语音信息时采集的图像信息;
对所述图像信息进行图像识别,以得到所述脸部朝向信息。


5.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
在所述用户发出所述语音信息时,检测所述用户是否在第一预设范围内;
根据所述脸部朝向信息,确定是否需要对所述语音信息作出相应的响应,包括:
所述用户在所述第一预设范围内时,根据所述脸部朝向信息,确定是否需要对所述语音信息作出相应的响应。


6.一种语音处理方法,其特征在于,包括:
采集用户发出的语音信息;
确定所述用户在发出所述语音信息时的脸部朝向信息;
基于所述脸部朝向信息,确定所述语音信息是否为所述用户的语音指令。


7.根据权利要求6所述的方法,其特征在于,所述脸部朝向信息包括:面部朝向;
基于所述脸部朝向信息,确定所述语音信息是否为所述用户的语音指令,包括:
所述面部朝向为第一方向时,确定所述语音信息为所述用户的语音指令。


8.根据权利要求7所述的方法,其特征在于,所述脸部朝向信息还包括:视觉朝向;
所述面部朝向为第一方向时,确定所述语音信息是否为所述用户的语音指令,包括:
所述面部朝向和所述视觉朝向均为第一方向时,确定所述语音信息为所述用户的语音指令。


9.根据权利要求6至8任一项所述的方法,其特征在于,还包括:
在所述用户发出所述语音信息时,检测所述用户是否在第一预设范围内;
根据所述脸部朝向信息,确定所述语音信息是否为所述用户的语音指令,包括:
所述用户在所述第一预设范围内时,根据所述脸部朝向信息,确定所述语音信息是否为所述用户的语音指令。


10.一种人机交互方法,其特征在于,包括:
在完成一轮会话后,保持唤醒状态以等待采集用户再次发出的语音信息;
采集到所述用户再次发出的语音信息时,获取在所述用户发出所述语音信息时采集的图像信息;
基于所述图像信息,确定是否需要对所述语音信息作出相应的响应。


11.根据权利要求10所述的方法,其特征在于,基于所述图像信息,确定是否需要对所述语音信息作出相应的响应,包括:
对所述图像信息进行图像识别,以得到所述用户在发出所述语音信息时的脸部朝向信息;<...

【专利技术属性】
技术研发人员:方婷
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1