当前位置: 首页 > 专利查询>浙江大学专利>正文

基于多模态大模型的自动化UI交互探索方法技术

技术编号:42296421 阅读:17 留言:0更新日期:2024-08-14 15:46
本发明专利技术公开了一种基于多模态大模型的自动化UI交互探索方法,包括如下步骤:(1)收集文本、图像、XML文件和历史操作记录信息,由多模态大模型分析上述信息并生成单步探索动作,通过执行系统实现动作正确识别、转化和执行;(2)向多模态大模型提供执行动作前后页面信息和当前视觉地图,多模态大模型通过提取页面特征和识别页面间的关系,更新视觉地图;(3)采用页面级递归探索策略,系统性地构建应用程序的视觉地图。利用本发明专利技术,可以自动化探索移动应用程序以及构建视觉地图,提高UI探索的准确性和可靠性。

【技术实现步骤摘要】

本专利技术属于自动化ui交互领域,具体涉及一种基于多模态大模型的自动化ui交互探索方法。


技术介绍

1、自动化探索应用程序、分析程序结构并生成视觉地图,可以帮助开发人员准确定位和导航应用程序中的各个页面和功能模块,其目的在于增强软件开发过程中的可见性和可理解性,特别是对于复杂的应用程序结构。这种方法不仅使开发人员能够快速把握应用程序的整体架构,而且提供了一个实用的工具来跟踪和解决问题。

2、视觉地图提供了应用程序结构的直观表示,帮助开发人员快速定位到特定的功能模块和页面。对于新加入项目的开发人员,视觉地图可以作为有效的导航工具,帮助他们更快地熟悉项目结构。当开发过程中发现问题时,视觉地图可以帮助快速定位到问题发生的具体页面或模块,简化问题复现步骤。视觉地图可以作为开发团队内部以及与非技术利益相关者沟通的桥梁,有助于提高问题讨论和解决的效率。自动化探索可以发现那些可能被人工探索遗漏的页面或功能,确保更全面的探索覆盖率。对于功能丰富、页面众多的复杂应用,自动化探索和视觉地图的生成尤为重要,可以有效管理和降低复杂度。

3、构建视觉地图的研本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的自动化UI交互探索方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于多模态大模型的自动化UI交互探索方法,其特征在于,步骤(1)中,文本包括开发者/发布者提供的应用程序概述材料、通过开发者工具查询到的应用程序运行时信息;图像为屏幕截图文件;XML文件为预处理后的视图层次结构文件;历史操作记录是一个包含多个记录项的数组,每个记录项代表一个单独的用户操作,在迭代回归的探索过程中逐步完善。

3.根据权利要求2所述的基于多模态大模型的自动化UI交互探索方法,其特征在于,每个记录项包含每个操作的唯一标识符、操作发生的确切时间、操作类型、...

【技术特征摘要】

1.一种基于多模态大模型的自动化ui交互探索方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于多模态大模型的自动化ui交互探索方法,其特征在于,步骤(1)中,文本包括开发者/发布者提供的应用程序概述材料、通过开发者工具查询到的应用程序运行时信息;图像为屏幕截图文件;xml文件为预处理后的视图层次结构文件;历史操作记录是一个包含多个记录项的数组,每个记录项代表一个单独的用户操作,在迭代回归的探索过程中逐步完善。

3.根据权利要求2所述的基于多模态大模型的自动化ui交互探索方法,其特征在于,每个记录项包含每个操作的唯一标识符、操作发生的确切时间、操作类型、对操作的简单描述、操作发生页面、操作具体元素、针对输入和滑动操作的具体参数、操作结果页面。

4.根据权利要求2所述的基于多模态大模型的自动化ui交互探索方法,其特征在于,视图层次结构文件的预处理包括对特定元素进行筛选和编号,具体内容为:

5.根据权利要求4所述的基于多模态大模型的自动化ui交互探索方法,其特征在于,步骤(1)中,向多模态大模型提供定义标准动作类型,供多模态大模型输出单步探索动作,多模态大模型...

【专利技术属性】
技术研发人员:智晨林夏青梁秀波赵天成泮军伟邓水光尹建伟
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1