语音交互方法、电子设备及计算机可读存储介质技术

技术编号:37038433 阅读:11 留言:0更新日期:2023-03-29 19:17
本申请实施例公开了一种语音交互方法、电子设备及计算机可读存储介质,用于解决控件匹配冲突。该方法包括:电子设备对获取的第一语音进行处理,得到第一语音指令;获取当前界面内各个第一控件的文本描述信息和位置信息;确定人眼视线在屏幕上的视觉焦点区域;将第一语音指令与目标信息进行匹配,该目标信息包括各个第一控件的文本描述信息;若当前界面包括至少两个第一目标控件,针对每个第一目标控件,根据第一目标控件的位置信息,确定第一目标控件是否位于视觉焦点区域内,第一目标控件为文本描述信息与第一语音指令相匹配的控件;当视觉焦点区域内只包括一个第一目标控件,对视觉焦点区域内的第一目标控件执行预设操作。焦点区域内的第一目标控件执行预设操作。焦点区域内的第一目标控件执行预设操作。

【技术实现步骤摘要】
语音交互方法、电子设备及计算机可读存储介质


[0001]本申请涉及人机交互
,尤其涉及一种语音交互方法、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]随着人机交互技术的不断发展,通过语音控制电子设备的应用也越来越广泛。
[0003]目前,通过语音控制电子设备的过程可以如下:用户向电子设备输入用户语音,电子设备采集用户语音之后,对该用户语音进行识别,得到语音指令;电子设备通过遍历当前显示界面的界面布局文件,获得当前显示界面上各个系统原生控件的文本描述信息和坐标信息;再将语音指令和各个控件的文本描述信息进行匹配,找出与该语音指令相匹配的控件;最后,对与语音指令相匹配的控件执行点击操作,以实现通过语音控制电子设备。
[0004]如果当前显示界面上包括至少两个具备相同文本描述信息的控件,而该语音指令与这至少两个控件相匹配,即出现至少两个控件与语音指令相匹配,则出现控件匹配冲突的问题。控件匹配冲突问题可能会导致无法准确地匹配用户意图,出现误匹配。

技术实现思路

[0005]本申请实施例提供一种语音交互方法、电子设备、计算机可读存储介质及计算机程序产品,可以解决控件匹配冲突问题。
[0006]第一方面,本申请实施例提供一种语音交互方法,应用于电子设备,该方法包括:获取第一语音;对第一语音进行处理,得到第一语音指令;获取当前界面内各个第一控件的文本描述信息和位置信息,第一控件为属于第一类别的控件,电子设备的屏幕显示的当前界面包括至少一个控件;确定人眼视线在屏幕上的视觉焦点区域;将第一语音指令与目标信息进行匹配,该目标信息包括各个第一控件的文本描述信息;若当前界面包括至少两个第一目标控件,针对每个第一目标控件,根据第一目标控件的位置信息,确定第一目标控件是否位于视觉焦点区域内,第一目标控件为文本描述信息与第一语音指令相匹配的控件;当视觉焦点区域内只包括一个第一目标控件,对视觉焦点区域内的第一目标控件执行预设操作。
[0007]由上可见,当存在至少两个与第一语音指令相匹配的第一目标控件,即出现控件匹配冲突时,使用视觉焦点区域对至少两个第一目标控件进行筛选,并在视觉焦点区域只包括一个第一目标控件时,将视觉焦点区域内的第一目标控件确定为与第一语音指令相匹配的控件。这样,通过视觉焦点区域减少控件匹配范围,降低匹配冲突的可能性,提高了控件匹配冲突时的匹配准确率。
[0008]在第一方面的一些可能的实现方式中,当视觉焦点区域内包括至少两个第一目标控件;该方法还包括:显示视觉焦点区域内每个第一目标控件的唯一标识;获取第二语音;对第二语音进行处理,得到第二语音指令;将第二语音指令与每个第一目标控件的唯一标识进行匹配;当视觉焦点区域内存在一个第二目标控件,对第二目标控件执行预设操作,第
二目标控件为唯一标识与第二语音指令相匹配的第一目标控件。
[0009]在该实现方式中,当视觉焦点区域内包括至少两个第一目标控件时,则进一步通过给每个第一目标控件增加唯一标识,以让用户再次确认控制意图,进一步提高了控件匹配冲突时的匹配准确率。另外,只显示视觉焦点区域内的第一目标控件的唯一标识,用户交互体验更佳。
[0010]在第一方面的一些可能的实现方式中,在显示视觉焦点区域内每个第一目标控件的唯一标识之后,在获取第二语音之前,该方法还包括:显示提示信息,提示信息用于提示针对唯一标识输入语音。
[0011]在该实现方式中,电子设备在显示第一目标控件的唯一标识之后,通过提示信息提示用户再次输入控制语音,用户体验更好。
[0012]在第一方面的一些可能的实现方式中,上述目标信息还包括视觉焦点区域内的各个第二控件的文本描述信息,第二控件为属于第二类别的控件;
[0013]在将第一语音指令与目标信息进行匹配之前,该方法还包括:遍历当前界面的页面布局文件,获得每个控件的位置信息和控件类型信息;根据每个控件的位置信息和控件类型信息,判断视觉焦点区域内是否包括第二控件;当视觉焦点区域内包括至少一个第二控件,对视觉焦点区域进行光学字符识别,获得光学字符识别结果,光学字符识别结果包括视觉焦点区域内各个第二控件的文本描述信息。第二控件是指不可通过遍历界面布局文件获取其文本描述信息的控件,例如,WebView控件。
[0014]在该实现方式中,当视觉焦点区域内包括第二控件时,则对视觉焦点区域进行光学字符识别(Optical Character Recognition,OCR),以获得第二控件的文本描述信息,提高了控件识别覆盖率,进一步提高了控件匹配的准确率。
[0015]在第一方面的一些可能的实现方式中,第二类别包括WebView控件和/或第三方自定义控件,第一类别包括系统原生控件。
[0016]在第一方面的一些可能的实现方式中,上述确定人眼视线在屏幕上的视觉焦点区域的过程可以包括:通过进行至少两次视线焦点区域估算,获得至少两个待选视线焦点区域,待选视线焦点区域为人眼视线在屏幕上的视觉焦点区域;将第一语音指令与各个第一控件的文本描述信息进行匹配;当存在至少一个第三目标控件,且各个待选视线焦点区域均不包括第三目标控件,将至少两个待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为视觉焦点区域,第三目标控件为文本描述信息与第一语音指令相匹配的第一控件;当存在至少一个第三目标控件,且至少一个第三目标控件不位于至少两个待选视线焦点区域的交集区域,将至少两个目标待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为视觉焦点区域,目标待选视线焦点区域为包括第三目标控件的待选视线焦点区域;当存在至少一个第三目标控件,且至少一个第三目标控件位于至少两个目标待选视线焦点区域的交集区域,将交集区域作为视觉焦点区域。
[0017]在该实现方式中,通过结合多次估算出的视觉焦点区域、语音指令和控件的文本描述信息,根据与第一语音指令匹配的第三目标控件在各个估算的视觉焦点区域中的情况,确定出最终的用户视觉焦点区域,提高了视线追踪的准确率。
[0018]在第一方面的一些可能的实现方式中,若当前界面只包括一个第一目标控件,该
方法还包括:对第一目标控件执行预设操作。
[0019]第二方面,本申请实施例提供一种语音交互方法,应用于电子设备,该方法包括:获取第一语音;对第一语音进行处理,得到第一语音指令;确定人眼视线在电子设备的屏幕上的视觉焦点区域,屏幕显示的当前界面包括至少一个控件;获取每个第一控件的文本描述信息,第一控件为属于第一类别且位于视觉焦点区域内的控件;将第一语音指令与目标信息进行匹配,目标信息包括每个第一控件的文本描述信息;当视觉焦点区域内存在一个第一目标控件,对第一目标控件执行预设操作,第一目标控件为文本描述信息与第一语音指令相匹配的控件。
[0020]在第二方面的一些可能的实现方式中,当视觉焦点区域内存在至少两个第一目标控件,该方法还包括:显示每个第一目标控件的唯一标识;获取第二语音;对第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音交互方法,其特征在于,应用于电子设备,所述方法包括:获取第一语音;对所述第一语音进行处理,得到第一语音指令;获取当前界面内各个第一控件的文本描述信息和位置信息,所述第一控件为属于第一类别的控件,所述电子设备的屏幕显示的所述当前界面包括至少一个控件;确定人眼视线在所述屏幕上的视觉焦点区域;将所述第一语音指令与目标信息进行匹配,所述目标信息包括各个所述第一控件的文本描述信息;当所述当前界面包括至少两个第一目标控件,针对每个所述第一目标控件,根据所述第一目标控件的位置信息,确定所述第一目标控件是否位于所述视觉焦点区域内,所述第一目标控件为文本描述信息与所述第一语音指令相匹配的控件;当所述视觉焦点区域内只包括一个所述第一目标控件,对所述视觉焦点区域内的所述第一目标控件执行预设操作。2.根据权利要求1所述的方法,其特征在于,当所述视觉焦点区域内包括至少两个所述第一目标控件;所述方法还包括:显示所述视觉焦点区域内每个所述第一目标控件的唯一标识;获取第二语音;对所述第二语音进行处理,得到第二语音指令;将所述第二语音指令与每个所述第一目标控件的唯一标识进行匹配;当所述视觉焦点区域内只存在一个第二目标控件,对所述第二目标控件执行所述预设操作,所述第二目标控件为唯一标识与所述第二语音指令相匹配的所述第一目标控件。3.根据权利要求2所述的方法,其特征在于,在显示所述视觉焦点区域内每个所述第一目标控件的唯一标识之后,获取第二语音之前,所述方法还包括:显示提示信息,所述提示信息用于提示针对所述唯一标识输入语音。4.根据权利要求1至3任一项所述的方法,其特征在于,所述目标信息还包括所述视觉焦点区域内的各个第二控件的文本描述信息,所述第二控件为属于第二类别的控件;在将所述第一语音指令与目标信息进行匹配之前,所述方法还包括:遍历所述当前界面的页面布局文件,获得每个所述控件的位置信息和控件类型信息;根据每个所述控件的位置信息和控件类型信息,判断所述视觉焦点区域内是否包括所述第二控件;当所述视觉焦点区域内包括至少一个所述第二控件,对所述视觉焦点区域进行光学字符识别,获得光学字符识别结果,所述光学字符识别结果包括所述视觉焦点区域内各个所述第二控件的文本描述信息。5.根据权利要求4所述的方法,其特征在于,所述第二类别的控件包括WebView控件和/或第三方自定义控件,所述第一类别的控件包括系统原生控件。6.根据权利要求1至5任一项所述的方法,其特征在于,确定人眼视线在所述屏幕上的视觉焦点区域,包括:通过进行至少两次视线焦点区域估算,获得至少两个待选视线焦点区域,所述待选视线焦点区域为人眼视线在所述屏幕上的视线焦点区域;
将所述第一语音指令与各个所述第一控件的文本描述信息进行匹配;当存在至少一个第三目标控件,且各个所述待选视线焦点区域均不包括所述第三目标控件,将所述至少两个待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为所述视觉焦点区域,所述第三目标控件为文本描述信息与所述第一语音指令相匹配的所述第一控...

【专利技术属性】
技术研发人员:温智坚张乐乐赖聪肖峰
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1