语音控制方法和装置制造方法及图纸

技术编号：43967151 阅读：13 留言：0更新日期：2025-01-10 19:56

本公开提供了一种语音控制方法和装置，涉及人工智能技术领域，具体为计算机视觉、图像处理、自然语言理解和深度学习等技术领域，可应用于所见即可说语音交互场景。该方法的一具体实施方式包括：获取用户输入的语音信息；将语音信息转换成对应的文本指令；将文本指令和当前界面输入至图像理解模型，得到当前界面中与文本指令匹配的控件；对与文本指令匹配的控件执行控件交互操作，得到操作结果。该实施方式利用图像理解模型，可以增强图像理解和控件交互，使用户更加便捷和高效地操作界面上的各种控件。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，具体为计算机视觉、图像处理、自然语言理解和深度学习等，可应用于所见即可说语音交互场景。

技术介绍

1、随着操作系统的发展，用户的输入方式从最早的命令行式操作逐渐发展为鼠标可视化操作，再到触摸屏操作。但是在一些场景下，用户不方便进行触摸屏幕、键盘输入、鼠标等操作，比如驾车中、烹饪中等等。所以，“所见即可说功能”逐渐有了雏形。所见即可说功能是用户在屏幕上看到任何文字，都可以直接和计算机以自然语言的方式说出来。所见即可说模块基于语音识别技术、自然语言处理技术得到用户的意图，找到最匹配的界面控件进行自动操作。

2、目前，所见即可说模块需要对每一个控件的文本内容进行解析，对每个控件需要支持的命令进行配置等众多定制化的内容，然后根据每个定制的命令解析用户的说的文本内容，根据解析出来的命令执行相关的操作。

技术实现思路

1、本公开实施例提出了一种语音控制方法、装置、设备、存储介质以及程序产品。

2、第一方面，本公开实施例提出了一种图像理解模型训练方法，包括：获...

【技术保护点】

1.一种图像理解模型训练方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述样本文本指令和所述样本界面作为输入，将所述样本控件作为输出，基于所述语言模型进行训练，得到图像理解模型，包括：

3.根据权利要求2所述的方法，其中，在所述语言模型的多头注意力层前面添加嵌入层，用于对所述提示信息进行编码，以及

4.一种语音控制方法，包括：

5.根据权利要求4所述的方法，其中，在所述获取用户输入的语音信息，还包括：

6.根据权利要求5所述的方法，其中，所述获取所述当前界面中的元素对应的子节点，包括：

7.一种图像理解模型...

【技术特征摘要】

1.一种图像理解模型训练方法，包括：

3.根据权利要求2所述的方法，其中，在所述语言模型的多头注意力层前面添加嵌入层，用于对所述提示信息进行编码，以及

4.一种语音控制方法，包括：

5.根据权利要求4所述的方法，其中，在所述获取用户输入的语音信息，还包括：

6.根据权利要求5所述的方法，其中，所述获取所述当前界面中的元素对应的子节点，包括：

7.一种图像理解模型训练装置，包括：

8.根据权利要求7所述的方法，其中，所述训练模块包括：

9....

【专利技术属性】
技术研发人员：熊新雷，周华，庞敏辉，卓著，张明月，赵明明，
申请(专利权)人：阿波罗智联北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人