语音处理方法、系统、装置和终端设备制造方法及图纸

技术编号:34759702 阅读:18 留言:0更新日期:2022-08-31 18:58
公开了一种语音处理方法、系统、装置和终端设备。所述方法,包括获取语音输入;获取所述语音输入的识别结果;获取当前应用程序的显示界面;解析所述显示界面以获取可操作页面对象和页面信息;将所述识别结果与所述页面信息进行匹配;基于匹配结果从所述可操作页面对象中确定待操作页面对象;以及针对所述页面对象生成与所述语音输入相对应的控制指令。本发明专利技术通过利用操作系统现有功能进行页面信息采集,将采集信息与识别出的用户语音相匹配,根据匹配结果生成相应的页面控制指令,能够在对页面及其关联应用无修改的情况下实现一套通用的语音控制方案。音控制方案。音控制方案。

【技术实现步骤摘要】
语音处理方法、系统、装置和终端设备


[0001]本公开涉及语音交互领域,尤其涉及一种语音处理方法、系统、装置和终端设备。

技术介绍

[0002]图形用户界面是人与机器之间传递和交换信息的媒介,但人与智能设备的图形用户界面之间的交互,相比于人与人之间的沟通质量仍然相距甚远。
[0003]随着技术的升级,人们与智能设备的交互方式从按键、触摸屏、遥控器逐步升级到了语音、视觉等多种形态融合交互的智能方式。但是现存市场上大量的应用程序仍只支持传统的触摸屏、按键、遥控器的交互方式,为了使用这些应用支持语音控制操作,通常需要修改应用,用于接入设备端语音助手提供的语音控制SDK(软件开发工具包)。通过SDK,将语音指令和应用界面操作进行映射,由此实现针对应用界面的语音控制。此种方式需要与每个应用对接,成本高,周期长,且在界面变化后需要重新适配,通用性差。
[0004]为此,需要一种通用的语音处理方案。

技术实现思路

[0005]本公开要解决的一个技术问题是提供一种通用的语音处理方案,该方案通过利用操作系统现有功能进行页面信息采集,将采集信息与识别出的用户语音相匹配,根据匹配结果生成相应的页面控制指令,由此能够在对页面及其关联应用无修改的情况下实现一套普适的语音控制方案。
[0006]根据本公开的第一个方面,提供了一种语音处理方法,包括:获取语音输入;获取所述语音输入的识别结果;获取当前应用程序的显示界面;解析所述显示界面以获取可操作页面对象和页面信息;将所述识别结果与所述页面信息进行匹配;基于匹配结果从所述可操作页面对象中确定待操作页面对象;以及针对所述页面对象生成与所述语音输入相对应的控制指令。
[0007]可选地,所述识别结果包括:所述语音输入包含的文字信息;和/或所述语音输入包含的语调、语态和/或声纹信息。其中,所述文字信息包括:与所述页面信息相对应的文字;和/或与操作动作相对应的文字。
[0008]可选地,获取当前应用程序的显示界面包括:获取所述语音输入时显示单元所显示的页面。
[0009]可选地,该方法还包括:参考所述页面信息,确定所述语音输入的识别结果。
[0010]可选地,获取所述语音输入时显示单元所显示的页面包括:获取所述语音输入时的可操作窗口;和/或获取所述语音输入时的所有窗口。
[0011]可选地,解析所述显示界面以获取可操作页面对象和页面信息包括:获取所述页面的页面布局信息;和/或采集所述页面包含的可操作页面元素的信息,可以将可操作页面元素看作是页面对象,并可以进一步获取可操作页面元素的层级结构信息。
[0012]可选地,该方法还包括:基于所述层级结构确定最上层的可操作页面元素;以及在
所述识别结果仅包括操作动作的情况下,生成针对所述最上层的可操作页面元素的控制指令。
[0013]可选地,该方法还包括:在语音识别结果仅包括针对特定页面元素的操作的情况下,生成针对所述特定页面元素的控制指令。
[0014]可选地,采集所述语音输入所针对页面的页面信息包括如下至少一项:利用操作系统无障碍服务也称为辅助服务来采集所述页面信息;通过操作系统中获取页面信息的其它方法来采集所述页面信息;以及通过修改操作系统来采集所述页面信息。
[0015]可选地,获取所述语音输入时显示单元所显示的页面包括:采集所述页面的图像信息;以及对采集的图像进行图像识别,以获取文本化的页面图像信息。采集所述页面的图像信息包括:仅采集页面本身的图像区域;和/或对采集的图像进行压缩,并使用压缩的图像进行图像识别。
[0016]可选地,所述控制指令包括:在所述识别结果仅包括页面对象时执行的默认操作指令;基于所述识别结果和/或匹配结果确定的指令;和/或实现基于匹配结果确定的所述指令的前序指令。
[0017]可选地,将所述识别结果与所述页面信息进行匹配包括:将所述识别结果与获取的页面文字信息进行匹配;和/或将所述识别结果与获取的页面信息所对应文字进行匹配。
[0018]可选地,将所述识别结果与所述页面信息进行匹配还包括:获取采集的页面信息的补充信息;以及将所述识别结果与获取的页面信息连同所述补充信息进行匹配。
[0019]可选地,针对所述页面对象生成与所述语音输入相对应的控制指令包括:生成针对所述页面屏幕的模拟操作指令;和/或效果相当于调用元素代码的命令。
[0020]可选地,获取当前应用程序的显示界面,并解析所述显示界面以获取可操作页面对象和页面信息包括:在所述当前应用程序开启或进入所述显示界面后,获取所述当前应用程序的显示界面以解析所述显示界面以获取可操作页面对象和页面信息。
[0021]可选地,该方法还包括:基于获取可操作页面对象和页面信息,生成候选语音操作,并且将所述识别结果与所述页面信息进行匹配包括:将所述识别结果与所述候选语音操作进行匹配。
[0022]可选地,在获取所述可操作页面对象和所述页面信息之后,生成针对所述可操作页面对象的操作语音提示;以及根据用户对所述操作语音提示的反馈,进行与所述操作语音提示对应操作。
[0023]可选地,将所述识别结果与所述页面信息进行匹配包括:由客户端对所述识别结果与所述页面信息进行本地匹配;以及在本地匹配失败或可信度低于阈值时,由服务器端对所述识别结果与所述页面信息进行云端匹配。
[0024]可选地,服务器端对当前应用程序的显示界面的截图进行图像分析和/或对采集的页面信息进行补充检索,以获取文本化的页面补充信息。
[0025]根据本公开的第二个方面,提出了一种语音处理服务器,包括:显示界面获取模块,用于获取目标终端当前应用程序的显示界面;解析模块,用于解析所述显示界面以获取可操作页面对象和页面信息;意图识别匹配模块,用于将语音识别的识别结果与获取的页面信息进行匹配,并且基于匹配结果确定待操作页面对象;以及指令下发模块,用于下发生成的针对所述页面对象的控制指令。
[0026]根据本公开的第三个方面,提供了一种语音操作方法,包括:接收用户的语音输入并获取当前应用程序的显示界面;基于生成的控制指令,对所述页面进行操作,其中,将从语音输入识别出的识别结果与显示界面的页面信息进行匹配以从显示界面的可操作页面对象中确定待操作页面对象,并基于所述待操作页面对象和指令,生成针对所述页面对象的控制指令,其中解析所述显示界面以获取所述可操作页面对象和所述页面信息。
[0027]根据本公开的第四个方面,提供了一种终端设备,包括:麦克风,用于获取用户的语音输入;处理器,用于响应于获取所述语音输入获取当前应用程序的显示界面,并基于生成的控制指令,对所述页面进行操作;以及显示装置,用于显示所述图像用户界面,以基于所述控制指令对所述页面进行操作的结果页面,其中,将从语音输入识别出的识别结果与显示界面的页面信息进行匹配以从显示界面的可操作页面对象中确定待操作页面对象,并基于所述待操作页面对象和指令,生成针对所述页面对象的控制指令,其中解析所述显示界面以获取所述可操作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,包括:获取语音输入;获取所述语音输入的识别结果;获取当前应用程序的显示界面;解析所述显示界面以获取可操作页面对象和页面信息;将所述识别结果与所述页面信息进行匹配;基于匹配结果从所述可操作页面对象中确定待操作页面对象;以及针对所述页面对象生成与所述语音输入相对应的控制指令。2.如权利要求1所述的方法,其中,所述识别结果包括:所述语音输入包含的文字信息;和/或所述语音输入包含的语调、语态和/或声纹信息。3.如权利要求2所述的方法,其中,所述文字信息包括:与所述页面信息相对应的文字;和/或与操作动作相对应的文字。4.如权利要求1所述的方法,其中,获取当前应用程序的显示界面包括:获取所述语音输入时显示单元所显示的页面;参考所述页面信息,确定所述语音输入的识别结果。5.如权利要求1所述的方法,还包括:提供与所述可操作页面对象和/或页面信息的视觉或听觉提示信息。6.如权利要求4所述的方法,其中,获取所述语音输入时显示单元所显示的页面包括:获取所述语音输入时所述当前应用程序的可操作窗口;和/或获取所述语音输入时所有运行中应用程序的所有窗口。7.如权利要求2所述的方法,其中,解析所述显示界面以获取可操作页面对象和页面信息包括:获取所述页面的页面布局信息;和/或采集所述页面包含的可操作页面元素的信息,其中,将所述可操作页面元素作为所述页面对象。8.如权利要求7所述的方法,还包括:从采集的所述页面信息中获取所述可操作页面元素的层级结构。9.如权利要求8所述的方法,还包括:基于所述层级结构确定最上层的可操作页面元素;以及在所述识别结果仅包括操作动作的情况下,生成针对所述最上层的可操作页面元素的控制指令。10.如权利要求4所述的方法,其中,获取所述语音输入时显示单元所显示的页面包括如下至少一项:利用操作系统辅助服务采集所显示的页面的数据;通过操作系统中获取页面信息的其它方法来采集所显示的页面的数据;以及通过修改操作系统来采集所显示的页面的数据。11.如权利要求4所述的方法,其中,获取所述语音输入时显示单元所显示的页面包括:
采集所述页面的图像信息;以及对采集的图像进行图像识别,以获取文本化的页面图像信息。12.如权利要求11所述的方法,其中,采集所述页面的图像信息包括:仅采集页面本身的图像区域;和/或对采集的图像进行压缩,并使用压缩的图像进行图像识别。13.如权利要求1所述的方法,还包括:在所述识别结果仅包括针对特定页面元素的操作的情况下,生成针对所述特定页面元素的控制指令。14.如权利要求1所述的方法,其中,所述控制指令包括:在所述识别结果仅包括页面对象对应信息时执行的默认操作指令;基于所述识别结果和/或匹配结果确定的指令;和/或实现基于匹配结果确定的所述指令的前序指令。15.如权利要求1所述的方法,其中,将所述识别结果与所述页面信息进行匹配包括:将所述识别结果与获取的页面文字信息进行匹配;和/或将所述识别结果与获取的页面信息所对应文字进行匹配。16.如权利要求15所述的方法,其中,将所述识别结果与所述页面信息进行匹配还包括:获取采集的页面信息的补充信息;以及将所述识别结果与获取的页面信息连同所述补充信息进行匹配。17.如权利要求1所述的方法,其中,针对所述页面对象生成与所述语音输入相对应的控制指令包括:生成针对所述页面屏幕的模拟操作指令;和/或调用元素代码的命令。18.如权利要求1所述的方法,其中,获取当前应用程序的显示界面,并解析所述显示界面以获取可操作页面对象和页面信息包括:在所述当前应用程序开启或进入所述显示界面后...

【专利技术属性】
技术研发人员:黄贤校
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1