当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于多模态模型的GUI异常检测方法技术

技术编号:43576917 阅读:24 留言:0更新日期:2024-12-06 17:43
本发明专利技术公开了一种基于多模态模型的GUI异常检测方法,包括:S1,设计多模态模型架构,用于融合文字模态和图像模态的特征;S2,在正常UI数据集上让模型学习到不同类型的组件和文字的匹配,和一些常见类型的UI异常的图文匹配能力,使得模型具有few shot能力;S3,对基于用户使用DSL定义的异常生成的小量数据集,进行few‑shot的模型微调,使得模型拥有识别新种类UI异常的能力;S4,使用文字提示和多模态模型进行UI异常的检测。本方法包括如何构建具有零样本和小样本迁移能力的多模态模型以及如何使用多模态模型进行GUI异常检测,本发明专利技术仅需在小样本数据集上微调模型,便可达到很好的GUI异常检测效果。

【技术实现步骤摘要】

本专利技术涉及软件测试、迁移学习和多模态模型,特别涉及一种基于多模态模型的gui异常检测方法。


技术介绍

1、ui(user interface)即用户界面,是人与计算机或其他设备之间进行信息交互的媒介。ui界面的质量直接影响用户的使用体验和满意度。因此,对ui界面进行测试和评估是软件开发过程中不可或缺的一环。

2、ui bug是指ui界面中存在的错误或缺陷,例如控件重叠、缺失、变形、错位等,它们会降低ui界面的美观性和功能性,甚至导致用户无法正常使用软件。为了有效地检测和修复ui bug,需要有大量且多样的异常ui数据集作为训练和测试的数据资源。

3、dsl(domain specific language)是一种针对特定领域或问题而设计的语言,具有简洁、高效、易扩展等特点。dsl可以用于描述某个领域或问题中涉及到的概念、规则、操作等,并且可以通过解析器将dsl语句转换为可执行的代码或指令。

4、目前的ui bug检测方法大多依赖于大量的标注数据和训练过程,每识别一个异常就需要高成本的数据和训练,这限制了它们的泛化能力本文档来自技高网...

【技术保护点】

1.一种基于多模态模型的GUI异常检测方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的基于多模态模型的GUI异常检测方法,其特征在于,所述步骤S1中的多模态模型架构是一种基于GLIP模型架构的具有较强的迁移学习能力的多模态模型架构,针对四个模块进行设计,所述模块包括文字编码器、图像编码器、DeepFusion模块和损失函数。

3.根据权利要求1或2所述的基于多模态模型的GUI异常检测方法,其特征在于,其特征在于,所述文字编码器选用BERT,具体选用Bert-based模型,所述Bert-based模型包含12层BERT Layer;所述图像编码器选...

【技术特征摘要】

1.一种基于多模态模型的gui异常检测方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的基于多模态模型的gui异常检测方法,其特征在于,所述步骤s1中的多模态模型架构是一种基于glip模型架构的具有较强的迁移学习能力的多模态模型架构,针对四个模块进行设计,所述模块包括文字编码器、图像编码器、deepfusion模块和损失函数。

3.根据权利要求1或2所述的基于多模态模型的gui异常检测方法,其特征在于,其特征在于,所述文字编码器选用bert,具体选用bert-based模型,所述bert-based模型包含12层bert layer;所述图像编码器选用dyhead,负责接收图像的输入,将图像编码为对应的特征;所述deepfusion模块用于将图像和文字两个维度的信息融合,选用bert layer和dyhead module作为模态特征融合层;从两个模态的主干网络的特征输出o0和p0开始,对于每一层的输出会通过多模态多头注意力模块(cross-modality multi-head attention)计算双模态交流的特征计算公式为:

4.根据权利要求3所述的基于多模态模型的gui异常检测方法,其特征在于,在cross-attention的过程中,会将图像模态输入向量o和文字模态输入向量p分别乘以各自的query权重矩阵w(q,i)和w(q,l)得到各自的query矩阵,记为qo和qp,以两个query的积计算attn中间矩阵,...

【专利技术属性】
技术研发人员:张天潘敏学甘易新
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1