语音处理方法、系统、装置和终端设备制造方法及图纸

技术编号：34759702 阅读：18 留言：0更新日期：2022-08-31 18:58

公开了一种语音处理方法、系统、装置和终端设备。所述方法，包括获取语音输入；获取所述语音输入的识别结果；获取当前应用程序的显示界面；解析所述显示界面以获取可操作页面对象和页面信息；将所述识别结果与所述页面信息进行匹配；基于匹配结果从所述可操作页面对象中确定待操作页面对象；以及针对所述页面对象生成与所述语音输入相对应的控制指令。本发明专利技术通过利用操作系统现有功能进行页面信息采集，将采集信息与识别出的用户语音相匹配，根据匹配结果生成相应的页面控制指令，能够在对页面及其关联应用无修改的情况下实现一套通用的语音控制方案。音控制方案。音控制方案。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、系统、装置和终端设备

[0001]本公开涉及语音交互领域，尤其涉及一种语音处理方法、系统、装置和终端设备。

技术介绍

[0002]图形用户界面是人与机器之间传递和交换信息的媒介，但人与智能设备的图形用户界面之间的交互，相比于人与人之间的沟通质量仍然相距甚远。
[0003]随着技术的升级，人们与智能设备的交互方式从按键、触摸屏、遥控器逐步升级到了语音、视觉等多种形态融合交互的智能方式。但是现存市场上大量的应用程序仍只支持传统的触摸屏、按键、遥控器的交互方式，为了使用这些应用支持语音控制操作，通常需要修改应用，用于接入设备端语音助手提供的语音控制SDK(软件开发工具包)。通过SDK，将语音指令和应用界面操作进行映射，由此实现针对应用界面的语音控制。此种方式需要与每个应用对接，成本高，周期长，且在界面变化后需要重新适配，通用性差。
[0004]为此，需要一种通用的语音处理方案。

技术实现思路

[0005]本公开要解决的一个技术问题是提供一种通用的语音处理方案，该方案通过利用操作系统现有功能进行页面信息采集，将采集信息与识别出的用户语音相匹配，根据匹配结果生成相应的页面控制指令，由此能够在对页面及其关联应用无修改的情况下实现一套普适的语音控制方案。
[0006]根据本公开的第一个方面，提供了一种语音处理方法，包括：获取语音输入；获取所述语音输入的识别结果；获取当前应用程序的显示界面；解析所述显示界面以获取可操作页面对象和页面信息；将所述识别结果与所述页面信息进行匹配；基于...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，包括：获取语音输入；获取所述语音输入的识别结果；获取当前应用程序的显示界面；解析所述显示界面以获取可操作页面对象和页面信息；将所述识别结果与所述页面信息进行匹配；基于匹配结果从所述可操作页面对象中确定待操作页面对象；以及针对所述页面对象生成与所述语音输入相对应的控制指令。2.如权利要求1所述的方法，其中，所述识别结果包括：所述语音输入包含的文字信息；和/或所述语音输入包含的语调、语态和/或声纹信息。3.如权利要求2所述的方法，其中，所述文字信息包括：与所述页面信息相对应的文字；和/或与操作动作相对应的文字。4.如权利要求1所述的方法，其中，获取当前应用程序的显示界面包括：获取所述语音输入时显示单元所显示的页面；参考所述页面信息，确定所述语音输入的识别结果。5.如权利要求1所述的方法，还包括：提供与所述可操作页面对象和/或页面信息的视觉或听觉提示信息。6.如权利要求4所述的方法，其中，获取所述语音输入时显示单元所显示的页面包括：获取所述语音输入时所述当前应用程序的可操作窗口；和/或获取所述语音输入时所有运行中应用程序的所有窗口。7.如权利要求2所述的方法，其中，解析所述显示界面以获取可操作页面对象和页面信息包括：获取所述页面的页面布局信息；和/或采集所述页面包含的可操作页面元素的信息，其中，将所述可操作页面元素作为所述页面对象。8.如权利要求7所述的方法，还包括：从采集的所述页面信息中获取所述可操作页面元素的层级结构。9.如权利要求8所述的方法，还包括：基于所述层级结构确定最上层的可操作页面元素；以及在所述识别结果仅包括操作动作的情况下，生成针对所述最上层的可操作页面元素的控制指令。10.如权利要求4所述的方法，其中，获取所述语音输入时显示单元所显示的页面包括如下至少一项：利用操作系统辅助服务采集所显示的页面的数据；通过操作系统中获取页面信息的其它方法来采集所显示的页面的数据；以及通过修改操作系统来采集所显示的页面的数据。11.如权利要求4所述的方法，其中，获取所述语音输入时显示单元所显示的页面包括：
采集所述页面的图像信息；以及对采集的图像进行图像识别，以获取文本化的页面图像信息。12.如权利要求11所述的方法，其中，采集所述页面的图像信息包括：仅采集页面本身的图像区域；和/或对采集的图像进行压缩，并使用压缩的图像进行图像识别。13.如权利要求1所述的方法，还包括：在所述识别结果仅包括针对特定页面元素的操作的情况下，生成针对所述特定页面元素的控制指令。14.如权利要求1所述的方法，其中，所述控制指令包括：在所述识别结果仅包括页面对象对应信息时执行的默认操作指令；基于所述识别结果和/或匹配结果确定的指令；和/或实现基于匹配结果确定的所述指令的前序指令。15.如权利要求1所述的方法，其中，将所述识别结果与所述页面信息进行匹配包括：将所述识别结果与获取的页面文字信息进行匹配；和/或将所述识别结果与获取的页面信息所对应文字进行匹配。16.如权利要求15所述的方法，其中，将所述识别结果与所述页面信息进行匹配还包括：获取采集的页面信息的补充信息；以及将所述识别结果与获取的页面信息连同所述补充信息进行匹配。17.如权利要求1所述的方法，其中，针对所述页面对象生成与所述语音输入相对应的控制指令包括：生成针对所述页面屏幕的模拟操作指令；和/或调用元素代码的命令。18.如权利要求1所述的方法，其中，获取当前应用程序的显示界面，并解析所述显示界面以获取可操作页面对象和页面信息包括：在所述当前应用程序开启或进入所述显示界面后...

【专利技术属性】
技术研发人员：黄贤校，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人