基于深度学习的屏幕图标语义识别方法及系统技术方案

技术编号：38154414 阅读：14 留言：0更新日期：2023-07-13 09:21

本发明专利技术属于元素拾取技术领域，具体涉及基于深度学习的屏幕图标语义识别方法及系统。方法包括：S1，采用原生拾取或CV拾取的方式，拾取屏幕界面的图标元素及图标元素的相关信息；所述图标元素的相关信息包括元素标签和元素的坐标；S2，将拾取到的图标元素送入元素分类模型，获得最终图标元素的类别；S3，根据先验知识，对最终图标元素的类别进行校验，判断分类是否正确；S4，将步骤S3中最终确定的分类结果用于下游任务。本发明专利技术具有能够拾取并理解元素含义，配合智能推荐等下游的任务，降低原有流程的开发复杂度，提高开发效率的特点。提高开发效率的特点。提高开发效率的特点。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的屏幕图标语义识别方法及系统

[0001]本专利技术属于元素拾取
，具体涉及基于深度学习的屏幕图标语义识别方法及系统。

技术介绍

[0002]随着RPA（机器人流程自动化）技术的成熟和人工智能（AI）技术的发展，基于智能流程自动化（IPA）技术的产品逐渐崭露头角。IPA技术的核心是将RPA与AI有机结合，通过AI辅助处理更复杂的任务，从而解放更多人力，能够从事更具价值和创造性的工作。这种技术的直接影响是根本性地提高效率、降低操作风险和改善客户体验。
[0003]在IPA产品的落地中，屏幕图标语义识别作为AI的一种具体应用具有重要意义。屏幕语义识别利用AI技术能够自动识别屏幕上的图标，使机器能像人一样准确理解图标背后的含义，从而降低原有流程的开发复杂度，提高开发效率。同时，结合根据图标语义，智能推荐相应RPA功能组件的下游任务，其应用场景更加广泛。
[0004]当前元素拾取技术，可以支持常见软件、网页的元素拾取；使用深度学习目标检测算法之后，更进一步扩展了其使用范围，支持远程桌面、Flash界面以及操作系统指令未能覆盖到的软件。然而，当前元素拾取技术存在以下几点问题：1.当前原生的元素类别不足以支撑实际应用场景。元素的类别判断依赖操作系统指令或者网页的html标签，但是无论是指令还是标签，都存在类别模糊的情况，限制了其在RPA中的使用。举例来说，勾选框分为“已勾选”和“未勾选”2种状态，类别标签都是“checkbox”，无法分清是否被勾选上。如果将类别标签定义为“已勾选”和“未勾选”，...

【技术保护点】

【技术特征摘要】
1.基于深度学习的屏幕图标语义识别方法，其特征在于，包括如下步骤；S1，采用原生拾取或CV拾取的方式，拾取屏幕界面的图标元素及图标元素的相关信息；所述图标元素的相关信息包括元素标签和元素的坐标；S2，将拾取到的图标元素送入元素分类模型，获得最终图标元素的类别；S3，根据先验知识，对最终图标元素的类别进行校验，判断分类是否正确；S4，将步骤S3中最终确定的分类结果用于下游任务。2.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法，其特征在于，步骤S1中，所述原生拾取方式为通过从操作系统的软件界面或者网页HTML界面，获取元素的标签以及根据拾取的元素坐标，使用屏幕截图的方式获取元素的图片。3.根据权利要求2所述的基于深度学习的屏幕图标语义识别方法，其特征在于，步骤S2中，对于原生拾取方式，结合获得的元素标签与元素分类模型得到的最终图标元素的类别，确定最终的元素语义。4.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法，其特征在于，步骤S1中，所述CV拾取方式为针对远程桌面、Flash界面、或者操作系统指令未能覆盖到的软件，将整个屏幕界面视为一张图片，并根据拾取的元素坐标，使用屏幕截图的方式获取元素的图片。5.根据权利要求4所述的基于深度学习的屏幕图标语义识别方法，其特征在于，步骤S2中，对于CV拾取方式，直接根据元素分类模型得到的最终图标元素的类别，...

【专利技术属性】
技术研发人员：曹为华，孙林君，
申请(专利权)人：杭州实在智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人