语音控制方法和装置制造方法及图纸

技术编号:43967151 阅读:13 留言:0更新日期:2025-01-10 19:56
本公开提供了一种语音控制方法和装置,涉及人工智能技术领域,具体为计算机视觉、图像处理、自然语言理解和深度学习等技术领域,可应用于所见即可说语音交互场景。该方法的一具体实施方式包括:获取用户输入的语音信息;将语音信息转换成对应的文本指令;将文本指令和当前界面输入至图像理解模型,得到当前界面中与文本指令匹配的控件;对与文本指令匹配的控件执行控件交互操作,得到操作结果。该实施方式利用图像理解模型,可以增强图像理解和控件交互,使用户更加便捷和高效地操作界面上的各种控件。

【技术实现步骤摘要】

本公开涉及人工智能,具体为计算机视觉、图像处理、自然语言理解和深度学习等,可应用于所见即可说语音交互场景。


技术介绍

1、随着操作系统的发展,用户的输入方式从最早的命令行式操作逐渐发展为鼠标可视化操作,再到触摸屏操作。但是在一些场景下,用户不方便进行触摸屏幕、键盘输入、鼠标等操作,比如驾车中、烹饪中等等。所以,“所见即可说功能”逐渐有了雏形。所见即可说功能是用户在屏幕上看到任何文字,都可以直接和计算机以自然语言的方式说出来。所见即可说模块基于语音识别技术、自然语言处理技术得到用户的意图,找到最匹配的界面控件进行自动操作。

2、目前,所见即可说模块需要对每一个控件的文本内容进行解析,对每个控件需要支持的命令进行配置等众多定制化的内容,然后根据每个定制的命令解析用户的说的文本内容,根据解析出来的命令执行相关的操作。


技术实现思路

1、本公开实施例提出了一种语音控制方法、装置、设备、存储介质以及程序产品。

2、第一方面,本公开实施例提出了一种图像理解模型训练方法,包括:获取训练样本和预先训练本文档来自技高网...

【技术保护点】

1.一种图像理解模型训练方法,包括:

2.根据权利要求1所述的方法,其中,所述将所述样本文本指令和所述样本界面作为输入,将所述样本控件作为输出,基于所述语言模型进行训练,得到图像理解模型,包括:

3.根据权利要求2所述的方法,其中,在所述语言模型的多头注意力层前面添加嵌入层,用于对所述提示信息进行编码,以及

4.一种语音控制方法,包括:

5.根据权利要求4所述的方法,其中,在所述获取用户输入的语音信息,还包括:

6.根据权利要求5所述的方法,其中,所述获取所述当前界面中的元素对应的子节点,包括:

7.一种图像理解模型...

【技术特征摘要】

1.一种图像理解模型训练方法,包括:

2.根据权利要求1所述的方法,其中,所述将所述样本文本指令和所述样本界面作为输入,将所述样本控件作为输出,基于所述语言模型进行训练,得到图像理解模型,包括:

3.根据权利要求2所述的方法,其中,在所述语言模型的多头注意力层前面添加嵌入层,用于对所述提示信息进行编码,以及

4.一种语音控制方法,包括:

5.根据权利要求4所述的方法,其中,在所述获取用户输入的语音信息,还包括:

6.根据权利要求5所述的方法,其中,所述获取所述当前界面中的元素对应的子节点,包括:

7.一种图像理解模型训练装置,包括:

8.根据权利要求7所述的方法,其中,所述训练模块包括:

9....

【专利技术属性】
技术研发人员:熊新雷周华庞敏辉卓著张明月赵明明
申请(专利权)人:阿波罗智联北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1