【技术实现步骤摘要】
本公开涉及人工智能,具体为计算机视觉、图像处理、自然语言理解和深度学习等,可应用于所见即可说语音交互场景。
技术介绍
1、随着操作系统的发展,用户的输入方式从最早的命令行式操作逐渐发展为鼠标可视化操作,再到触摸屏操作。但是在一些场景下,用户不方便进行触摸屏幕、键盘输入、鼠标等操作,比如驾车中、烹饪中等等。所以,“所见即可说功能”逐渐有了雏形。所见即可说功能是用户在屏幕上看到任何文字,都可以直接和计算机以自然语言的方式说出来。所见即可说模块基于语音识别技术、自然语言处理技术得到用户的意图,找到最匹配的界面控件进行自动操作。
2、目前,所见即可说模块需要对每一个控件的文本内容进行解析,对每个控件需要支持的命令进行配置等众多定制化的内容,然后根据每个定制的命令解析用户的说的文本内容,根据解析出来的命令执行相关的操作。
技术实现思路
1、本公开实施例提出了一种语音控制方法、装置、设备、存储介质以及程序产品。
2、第一方面,本公开实施例提出了一种图像理解模型训练方法,包括:获
...【技术保护点】
1.一种图像理解模型训练方法,包括:
2.根据权利要求1所述的方法,其中,所述将所述样本文本指令和所述样本界面作为输入,将所述样本控件作为输出,基于所述语言模型进行训练,得到图像理解模型,包括:
3.根据权利要求2所述的方法,其中,在所述语言模型的多头注意力层前面添加嵌入层,用于对所述提示信息进行编码,以及
4.一种语音控制方法,包括:
5.根据权利要求4所述的方法,其中,在所述获取用户输入的语音信息,还包括:
6.根据权利要求5所述的方法,其中,所述获取所述当前界面中的元素对应的子节点,包括:
...
【技术特征摘要】
1.一种图像理解模型训练方法,包括:
2.根据权利要求1所述的方法,其中,所述将所述样本文本指令和所述样本界面作为输入,将所述样本控件作为输出,基于所述语言模型进行训练,得到图像理解模型,包括:
3.根据权利要求2所述的方法,其中,在所述语言模型的多头注意力层前面添加嵌入层,用于对所述提示信息进行编码,以及
4.一种语音控制方法,包括:
5.根据权利要求4所述的方法,其中,在所述获取用户输入的语音信息,还包括:
6.根据权利要求5所述的方法,其中,所述获取所述当前界面中的元素对应的子节点,包括:
7.一种图像理解模型训练装置,包括:
8.根据权利要求7所述的方法,其中,所述训练模块包括:
9....
【专利技术属性】
技术研发人员:熊新雷,周华,庞敏辉,卓著,张明月,赵明明,
申请(专利权)人:阿波罗智联北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。