一种作为GUI代理的视觉语言模型及其构建方法技术

技术编号：40556292 阅读：10 留言：0更新日期：2024-03-05 19:17

本发明专利技术属于大模型技术领域，涉及一种作为GUI代理的视觉语言模型及其构建方法，所述作为GUI代理的视觉语言大模型包括：降采样模块；低分辨率图像编码器；MLP适配器；词嵌入模块；视觉语言解码器；高分辨率图像编码器，其用于对高分辨率GUI图像进行处理以获得高分辨率GUI图像特征序列；交叉注意力模块，其具有多层交叉注意力层，每层所述交叉注意力层分别用于对所述高分辨率GUI图像特征序列和每层自注意力层输出的图像文本组合特征序列进行处理，以获得最终的组合特征序列。其在基础视觉理解方面具有强大的性能，能够用于GUI的理解和导航。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大模型，涉及一种视觉语言模型及其构建方法，尤其是一种作为gui代理的视觉语言模型及其构建方法。

技术介绍

1、数字世界中的自主代理是许多现代人梦想的理想助手。想象一下这个场景：你输入一个任务，然后放松地享受一杯咖啡，同时观看该任务，诸如在线订票、进行网络搜索、管理文件和创建powerpoint演示文稿等自动完成。最近，基于大型语言模型的代理的出现使人们更接近于这个梦想。例如，autogpt，其利用chatgpt来集成语言理解与预定义的操作，如谷歌搜索和本地文件操作。

2、然而，大多数应用进程通过gui(图形用户界面)与人类交互，但是针对gui的代理主要存在以下两点限制：1、gui交互缺少可供使用的api(接口)；2、gui中的文本、图标和空间关系等信息很难用文本传达。

3、因此，对于gui，纯粹基于语言的代理的潜力是相当有限的。而基于视觉语言模型(vlm)的代理有可能克服这些限制，只要vlm能达到人类水平的视觉理解。

4、但是，目前，gui中的导航通常是通过分析提取的结构化数据来完成，视觉特征仅在处理需要物体识别的场景(例如在线购物)起到辅助作用。而且，目前的vlm在作为gui代理时，存在如下问题：1、训练数据：目前大多数vlm都是在由网络自然图像组成的数据集上进行预训练的，gui图像的分布与网络自然图像截图不同。因此，使得目前大多数vlm并不适合处理gui图像。2、高分辨率：在gui图像中，微小的图表和文字无处不在，它们在常用的224×224分辨率下很难识别。但是，高分辨率输入

5、因此，针对上述现有技术中存在的缺陷，需要研发一种新型的作为gui代理的视觉语言模型。

技术实现思路

1、为了克服现有技术的缺陷，本专利技术提出一种作为gui代理的视觉语言模型及其构建方法，其在基础视觉理解方面具有强大的性能，能够用于gui的理解和导航。

2、为了实现上述目的，本专利技术提供如下技术方案：

3、一种作为gui代理的视觉语言模型，其包括：

4、降采样模块，其用于对高分辨率gui图像进行降采样处理，以获得低分辨率gui图像；

5、低分辨率图像编码器，其用于对所述低分辨率gui图像进行处理以获得低分辨率gui图像特征序列；

6、mlp适配器，其用于实现所述低分辨率图像编码器与视觉语言解码器之间的适配；

7、词嵌入模块，其用于对输入文本进行处理以获得文本特征序列；

8、视觉语言解码器，其具有多层自注意力层，每层所述自注意力层都用于对所述低分辨率gui图像特征序列和文本特征序列的组合输入进行处理，以获得图像文本组合特征序列；

9、其特征在于，进一步包括：

10、高分辨率图像编码器，其用于对高分辨率gui图像进行处理以获得高分辨率gui图像特征序列；

11、交叉注意力模块，其具有多层交叉注意力层，每层所述交叉注意力层分别用于对所述高分辨率gui图像特征序列和每层所述自注意力层输出的图像文本组合特征序列进行处理，以获得最终的组合特征序列。

12、优选地，所述交叉注意力层具有较小的隐藏尺寸，且其隐藏尺寸大小为1024。

13、优选地，所述自注意力层具有较大的隐藏尺寸，且其隐藏尺寸大小为4096。

14、优选地，所述高分辨率gui图像的像素为1120×1120。

15、优选地，所述低分辨率gui图像的像素为224×224。

16、此外，本专利技术还提供一种上述作为gui代理的视觉语言模型的构建方法，其特征在于，包括以下步骤：

17、1)、搭建所述作为gui代理的视觉语言模型；

18、2)、构建训练数据；

19、3)、用所述训练数据预训练所述作为gui代理的视觉语言模型。

20、优选地，所述步骤2)中构建的训练数据包括文本识别数据、视觉定位数据和gui图像数据。

21、优选地，所述作为gui代理的视觉语言模型的构建方法，其特征在于，进一步包括：

22、4)、微调和对齐预训练后的作为gui代理的视觉语言模型。

23、与现有技术相比，本专利技术的作为gui代理的视觉语言模型及其构建方法具有如下有益技术效果中的一者或多者：

24、1、本专利技术增加了高分辨率交叉模块，并结合交叉注意力机制，可以将现有视觉语言模型中原有的大型视觉语言编码器(50亿参数)和新的小型高分辨率交叉模块(4.3亿参数)结合起来，共同提供视觉特征，这大大提高了本专利技术的作为gui代理的视觉语言模型的推理的性能和速度。

25、2、本专利技术构建了适用于gui的数据集：基于文字识别和gui图文对构建了一个新的数据集，以供持续地预训练本专利技术的作为gui代理的视觉语言模型，使其更适合处理gui图像。

26、3、本专利技术的作为gui代理的视觉语言模型在gui和纯粹的语言领域上都显著优于传统的大语言模型。

本文档来自技高网...

【技术保护点】

1.一种作为GUI代理的视觉语言模型，其包括：

2.根据权利要求1所述的作为GUI代理的视觉语言模型，其特征在于，所述交叉注意力层具有较小的隐藏尺寸，且其隐藏尺寸大小为1024。

3.根据权利要求2所述的作为GUI代理的视觉语言模型，其特征在于，所述自注意力层具有较大的隐藏尺寸，且其隐藏尺寸大小为4096。

4.根据权利要求3所述的作为GUI代理的视觉语言模型，其特征在于，所述高分辨率GUI图像的像素为1120×1120。

5.根据权利要求4所述的作为GUI代理的视觉语言模型，其特征在于，所述低分辨率GUI图像的像素为224×224。

6.一种权利要求1-5中任一项所述的作为GUI代理的视觉语言模型的构建方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的作为GUI代理的视觉语言模型的构建方法，其特征在于，所述步骤2)中构建的训练数据包括文本识别数据、视觉定位数据和GUI图像数据。

8.根据权利要求7所述的作为GUI代理的视觉语言模型的构建方法，其特征在于，进一步包括：

【技术特征摘要】

1.一种作为gui代理的视觉语言模型，其包括：

2.根据权利要求1所述的作为gui代理的视觉语言模型，其特征在于，所述交叉注意力层具有较小的隐藏尺寸，且其隐藏尺寸大小为1024。

3.根据权利要求2所述的作为gui代理的视觉语言模型，其特征在于，所述自注意力层具有较大的隐藏尺寸，且其隐藏尺寸大小为4096。

4.根据权利要求3所述的作为gui代理的视觉语言模型，其特征在于，所述高分辨率gui图像的像素为1120×1120。

5.根据权...

【专利技术属性】
技术研发人员：洪文逸，丁铭，王维汉，吕青松，胥嘉政，余文梦，纪骏辉，王岩，汪子涵，
申请(专利权)人：北京智谱华章科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人