用于用户界面预测和生成的经机器学习的模型制造技术

技术编号:39600887 阅读:14 留言:0更新日期:2023-12-03 20:00
总体上,本公开涉及一种用户界面理解

【技术实现步骤摘要】
【国外来华专利技术】用于用户界面预测和生成的经机器学习的模型


[0001]本公开总体上涉及用户界面理解

更具体地,本公开涉及训练和利用经机器学习的模型进行用户界面预测和
/
或生成


技术介绍

[0002]为了提高智能设备的可访问性并且简化其使用,构建能够辅助用户完成其任务的直观

有效率的用户界面至关重要

然而,特定于界面的特性常规上使机器学习技术难以应用

例如,常规的机器学习技术难以有效地利用涉及图像

文本和
/
或结构元数据的多模态界面特征

针对另一示例,当高质量的标记数据不可用时,经机器学习的模型常规上很难实现强大的性能,这在用户界面中很常见

因此,强烈期望能够进行有效率和准确的用户界面预测和
/
或生成的经机器学习的模型


技术实现思路

[0003]本公开的实施例的各方面和优点将在以下描述中部分地阐述,或者能够通过描述来学习,或者能够通过实施例的实践来学习

[0004]本公开的一个示例方面涉及一种用于训练和利用经机器学习的模型进行用户界面预测的计算机实施的方法

方法包括:由包括一个或多个计算设备的计算系统,获得描述包括多个界面元素的单个用户界面的界面数据,其中,界面数据包括描绘单个用户界面的一个或多个界面图像

方法包括:由计算系统,至少部分地基于一个或多个界面图像或者一个或多个界面图像中描绘的文本内容中的一个或多个来确定多个中间嵌入

方法包括:由计算系统,使用经机器学习的界面预测模型来处理多个中间嵌入以获得一个或多个用户界面嵌入

方法包括:由计算系统,至少部分地基于一个或多个用户界面嵌入来执行预训练任务以获得预训练输出

[0005]本公开的另一示例方面涉及一种计算系统,该计算系统包括一个或多个处理器和存储计算机可读指令的一个或多个有形非暂时性计算机可读介质,该一个或多个有形非暂时性计算机可读介质存储被配置为生成用户界面的经学习的表示的经机器学习的界面预测模型

经机器学习的界面预测模型已经通过执行操作来被训练

操作包括:获得描绘包括多个界面元素的单个用户界面的界面数据,其中,界面数据包括描绘单个用户界面的界面图像

操作包括:至少部分地基于一个或多个界面图像或者一个或多个界面图像中描绘的文本内容中的一个或多个来确定多个中间嵌入

操作包括:使用经机器学习的界面预测模型来处理多个中间嵌入以获得一个或多个用户界面嵌入

操作包括:至少部分地基于一个或多个用户界面嵌入来执行预训练任务以获得预训练输出

[0006]本公开的另一示例方面涉及存储计算机可读指令的一个或多个有形非暂时性计算机可读介质,该计算机可读指令在由一个或多个处理器施行时使得一个或多个处理器执行操作

操作包括:获得描绘包括多个界面元素的单个用户界面的界面数据,其中,界面数据包括结构数据和描绘单个用户界面的界面图像,其中,结构数据指示多个界面元素中的
一个或多个相应界面元素的一个或多个位置

操作包括:至少部分地基于结构数据

一个或多个界面图像

或者一个或多个界面图像中描绘的文本内容中的一个或多个来确定多个中间嵌入

操作包括:使用经机器学习的界面预测模型来处理多个中间嵌入以获得一个或多个用户界面嵌入

操作包括:至少部分地基于一个或多个用户界面嵌入来执行预训练任务以获得预训练输出

[0007]本公开的其他方面涉及各种系统

装置

非暂时性计算机可读介质

用户界面和电子设备

[0008]本公开的各种实施例的这些和其他特征

方面和优点参照以下描述和所附权利要求书将变得更好理解

被并入到本说明书中并且构成本说明书的一部分的附图图示了本公开的示例实施例,并且连同描述一起用于解释相关原理

附图说明
[0009]参照所附附图在本说明书中阐述针对本领域的普通技术人员对实施例的详细讨论,其中:
[0010]图
1A
描绘了根据本公开的示例实施例的

执行经机器学习的界面预测模型的训练和利用的示例计算系统的框图

[0011]图
1B
描绘了根据本公开的示例实施例的

执行经机器学习的界面预测模型的预训练的示例计算设备的框图

[0012]图
1C
描绘了根据本公开的示例实施例的

使用经机器学习的界面预测模型来执行界面预测的示例计算设备的框图

[0013]图2描绘了根据本公开的示例实施例的示例经机器学习的界面预测模型的框图

[0014]图3描绘了根据本公开的示例实施例的示例经机器学习的界面预测模型的框图

[0015]图4描绘了根据本公开的示例实施例的用户界面的示例图

[0016]图5描绘了用于使用经机器学习的界面预测模型来执行预训练任务的数据流程图

[0017]图6描绘了根据本公开的示例实施例的

执行经机器学习的界面预测模型的预训练的示例方法的流程图

[0018]在多个附图上重复的附图标记旨在标识各种实施方式中的相同特征

具体实施方式
[0019]概述
[0020]总体上,本公开涉及用户界面理解

更具体地,本公开涉及训练和利用经机器学习的模型进行用户界面预测和
/
或生成

作为示例,能够获得描述用户界面
(
例如,由应用和
/
或操作系统呈现的用户界面等
)
的界面数据

用户界面能够包括多个用户界面元素
(
例如图标

可交互按钮

图像

文本内容等
)。
界面数据能够包括结构数据
(
例如指示界面元素的位置的元数据等
)
和描绘用户界面的界面图像

能够基于结构数据

一个或多个界面图像


/
或一个或多个界面图像中描绘的文本内容
(
例如使用文本识别模型
(OCR)

)
来确定多个中间嵌入
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种用于训练和利用经机器学习的模型进行用户界面预测的计算机实施的方法,包括:由包括一个或多个计算设备的计算系统获得界面数据,所述界面数据描述包括多个界面元素的单个用户界面,其中,所述界面数据包括描绘所述单个用户界面的一个或多个界面图像;由所述计算系统至少部分地基于所述一个或多个界面图像或者所述一个或多个界面图像中描绘的文本内容中的一个或多个来确定多个中间嵌入;由所述计算系统使用经机器学习的界面预测模型来处理所述多个中间嵌入以获得一个或多个用户界面嵌入;以及由所述计算系统至少部分地基于所述一个或多个用户界面嵌入来执行预训练任务以获得预训练输出
。2.
根据任一项前述权利要求所述的计算机实施的方法,其中,所述方法进一步包括:由所述计算系统评估损失函数,所述损失函数评估真实值数据和所述预训练输出之间的差异;以及由所述计算系统至少部分地基于所述损失函数来调整所述经机器学习的界面预测模型的一个或多个参数
。3.
根据任一项前述权利要求所述的计算机实施的方法,其中:在确定所述多个中间嵌入之前,所述方法包括:由所述计算系统使用与所述单个用户界面不同的第二用户界面的一个或多个相应的第二界面元素来替换所述多个界面元素中的一个或多个界面元素;以及执行所述一个或多个预训练任务包括:由所述计算系统使用所述经机器学习的界面预测模型或者单独的预训练预测头来处理所述一个或多个用户界面嵌入以获得所述预训练输出,其中,所述预训练输出被配置为指示所述单个用户界面是否是未修改的用户界面
。4.
根据权利要求3所述的计算机实施的方法,其中,所述预训练输出进一步被配置为指示所述多个界面元素中的每个界面元素是否是未修改的界面元素
。5.
根据任一项前述权利要求所述的计算机实施的方法,其中:在确定所述多个中间嵌入之前,所述方法包括:由所述计算系统掩蔽所述一个或多个界面图像的一个或多个部分;以及执行所述一个或多个预训练任务包括:由所述计算系统使用所述经机器学习的界面预测模型或单独的预训练预测头来处理所述一个或多个用户界面嵌入以获得所述预训练输出,其中,所述预训练输出包括已经被掩蔽的所述一个或多个界面图像的所述一个或多个部分的预测出的补全,所述预测出的补全是从候选图像池中选择的
。6.
根据任一项前述权利要求所述的计算机实施的方法,其中:在确定所述多个中间嵌入之前,所述方法包括:由所述计算系统掩蔽所述一个或多个界面图像中描绘的所述文本内容的一个或多个部分;以及执行所述预训练任务包括:由所述计算系统使用所述经机器学习的界面预测模型或单独的预训练预测头来处理所述一个或多个用户界面嵌入以获得所述预训练输出,其中,所述预训练输出包括所述一个或多个界面图像中描绘的所述文本内容的已被掩蔽的所述一个或多个部分的预测出的文本补全

7.
根据任一项前述权利要求所述的计算机实施的方法,其中,在确定所述多个中间嵌入之前,所述方法包括:由所述计算系统掩蔽指示所述多个界面元素中的一个或多个相应的界面元素的一个或多个位置的结构数据的一个或多个部分
。8.
根据权利要求7所述的计算机实施的方法,其中:所述结构数据的所述一个或多个部分进一步描绘所述多个界面元素中的一个或多个相应的界面元素的一个或多个类标签;以及执行所述一个或多个预训练任务包括:由所述计算系统使用所述经机器学习的界面预测模型或者单独的预训练预测头来处理所述一个或多个用户界面嵌入以获得所述预训练输出,其中,所述预训练输出包括所述一个或多个相应的界面元素的一个或多个预测出的类标签
。9.
根据权利要求7至8中任一项所述的计算机实施的方法,其中:所述结构数据的所述一个或多个部分进一步包括所述多个界面元素的一个或多个相应的界面元素的一个或多个内容描述符;以及执行所述一个或多个预训练任务包括:由所述计算系统使用所述经机器学习的界面预测模型或者单独的预训练预测头来处理所述一个或多个用户界面嵌入以获得所述预训练输出,其中,所述预训练输出包括所述一个或多个相应的界面元素的一个或多个预测出的内容描述符
。10.
根据任一项前述权利要求所述的计算机实施的方法,其中,所述方法进一步包括:由所述计算系统使用所述经机器学习的界面预测模型至少部分地基于所述一个或多个用户界面嵌入来执行一个或多个预测任务以获得一个或多个相应的界面预测输出
。11.
根据权利要求
10
所述的计算机实施的方法,其中,相应的一个或多个界面预测输出包括以下中的至少一项:搜索检索输出,所述搜索检索输出描述与所述多个界面元素中的查询界面元素类似的一个或多个检索到的界面元素;预测输出,所述预测输出指示结构数据的一部分与所述多个界面元素中的界面元素之间的关系,所述结构数据的一部分指示所述多个界面元素中的一个或多个相应的界面元素的一个或多个位置;预测输出,所述预测输出包括所述结构数据和所述一个或多个界面图像的对应关系值;分类输出,所述分类输出指示与所述单个用户界面相关联的应用的应用类别;或者分类输出,所述分类输出指示所述多个界面元素中的界面元素的界面元素类别
。12.
根据任一项前述权利要求所述的计算机实施的方法,其中,所述多个中间嵌入包括一个或多个图像嵌入

一个或多个文本嵌入

...

【专利技术属性】
技术研发人员:臧晓雪
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1