基于深度学习的屏幕图标语义识别方法及系统技术方案

技术编号:38154414 阅读:14 留言:0更新日期:2023-07-13 09:21
本发明专利技术属于元素拾取技术领域,具体涉及基于深度学习的屏幕图标语义识别方法及系统。方法包括:S1,采用原生拾取或CV拾取的方式,拾取屏幕界面的图标元素及图标元素的相关信息;所述图标元素的相关信息包括元素标签和元素的坐标;S2,将拾取到的图标元素送入元素分类模型,获得最终图标元素的类别;S3,根据先验知识,对最终图标元素的类别进行校验,判断分类是否正确;S4,将步骤S3中最终确定的分类结果用于下游任务。本发明专利技术具有能够拾取并理解元素含义,配合智能推荐等下游的任务,降低原有流程的开发复杂度,提高开发效率的特点。提高开发效率的特点。提高开发效率的特点。

【技术实现步骤摘要】
基于深度学习的屏幕图标语义识别方法及系统


[0001]本专利技术属于元素拾取
,具体涉及基于深度学习的屏幕图标语义识别方法及系统。

技术介绍

[0002]随着RPA(机器人流程自动化)技术的成熟和人工智能(AI)技术的发展,基于智能流程自动化(IPA)技术的产品逐渐崭露头角。IPA技术的核心是将RPA与AI有机结合,通过AI辅助处理更复杂的任务,从而解放更多人力,能够从事更具价值和创造性的工作。这种技术的直接影响是根本性地提高效率、降低操作风险和改善客户体验。
[0003]在IPA产品的落地中,屏幕图标语义识别作为AI的一种具体应用具有重要意义。屏幕语义识别利用AI技术能够自动识别屏幕上的图标,使机器能像人一样准确理解图标背后的含义,从而降低原有流程的开发复杂度,提高开发效率。同时,结合根据图标语义,智能推荐相应RPA功能组件的下游任务,其应用场景更加广泛。
[0004]当前元素拾取技术,可以支持常见软件、网页的元素拾取;使用深度学习目标检测算法之后,更进一步扩展了其使用范围,支持远程桌面、Flash界面以及操作系统指令未能覆盖到的软件。然而,当前元素拾取技术存在以下几点问题:1.当前原生的元素类别不足以支撑实际应用场景。元素的类别判断依赖操作系统指令或者网页的html标签,但是无论是指令还是标签,都存在类别模糊的情况,限制了其在RPA中的使用。举例来说,勾选框分为“已勾选”和“未勾选”2种状态,类别标签都是“checkbox”,无法分清是否被勾选上。如果将类别标签定义为“已勾选”和“未勾选”,则可以根据勾选状态调整RPA流程的逻辑,例如登录网站时如相关勾选框已勾选,则可无需再次进行勾选框操作,所开发的RPA流程将更简洁和高效;同时进一步扩大起使用范围。
[0005]2.RPA元素CV拾取的结果不带有类型信息。如中国专利申请号为CN 2022109443974的专利文献描述的一种离线RPA元素拾取方法及系统以及中国专利申请号为CN2022103765230的专利文献描述的一种RPA元素拾取同屏切换方法及系统,对于使用深度学习检测的智能拾取而言,由于将界面视为一张图片,缺乏指令及HTML标签的提示,也就无法获取元素的类别。
[0006]3.RPA元素CV拾取带有类别信息,但是元素只针对UI元素,无法处理复杂元素(如登录界面),如中国专利申请号为CN2021105645421的专利文献描述的一种RPA系统中基于目标检测技术的UI元素拾取方法和系统。其他一些非RPA领域的元素识别方法,虽然能够解析元素,但是由于神经网络结构复杂,参数多,进一步限制了在RPA领域的应用,如中国专利申请号为CN2017110429816的专利文献描述的一种基于卷积神经网络的图标识别方法和装置以及中国专利申请号为CN2019101232653的专利文献描述的一种基于图标表示和软件行为一致性分析的恶意程序识别方法及装置。
[0007]综合上述原因,缺乏清晰、明确的元素类别、模型参数等因素,限制了拾取到的元素在下游的使用,如RPA组件推荐等任务。从整体来看,屏幕图标语义识别层面的拾取目前
还属于空白阶段。
[0008]因此,设计一种能够拾取并理解元素含义,配合智能推荐等下游的任务,降低原有流程的开发复杂度,提高开发效率的基于深度学习的屏幕图标语义识别方法及系统,就显得十分重要。

技术实现思路

[0009]本专利技术是为了克服现有技术中,现有的元素拾取技术,存在缺乏清晰、明确的元素类别、模型参数等因素,限制了拾取到的元素在下游使用的问题,提供了一种能够拾取并理解元素含义,配合智能推荐等下游的任务,降低原有流程的开发复杂度,提高开发效率的基于深度学习的屏幕图标语义识别方法及系统。
[0010]为了达到上述专利技术目的,本专利技术采用以下技术方案:基于深度学习的屏幕图标语义识别方法,包括如下步骤;S1,采用原生拾取或CV拾取的方式,拾取屏幕界面的图标元素及图标元素的相关信息;所述图标元素的相关信息包括元素标签和元素的坐标;S2,将拾取到的图标元素送入元素分类模型,获得最终图标元素的类别;S3,根据先验知识,对最终图标元素的类别进行校验,判断分类是否正确;S4,将步骤S3中最终确定的分类结果用于下游任务。
[0011]作为优选,步骤S1中,所述原生拾取方式为通过从操作系统的软件界面或者网页HTML界面,获取元素的标签以及根据拾取的元素坐标,使用屏幕截图的方式获取元素的图片。
[0012]作为优选,步骤S2中,对于原生拾取方式,结合获得的元素标签与元素分类模型得到的最终图标元素的类别,确定最终的元素语义。
[0013]作为优选,步骤S1中,所述CV拾取方式为针对远程桌面、Flash界面、或者操作系统指令未能覆盖到的软件,将整个屏幕界面视为一张图片,并根据拾取的元素坐标,使用屏幕截图的方式获取元素的图片。
[0014]作为优选,步骤S2中,对于CV拾取方式,直接根据元素分类模型得到的最终图标元素的类别,确定最终的元素语义。
[0015]作为优选,步骤S3中,图标元素的分类类别包括文字、已勾选框、未勾选框、输入栏、前进、后退、按钮、登录、文字验证码。
[0016]作为优选,所述元素分类模型选用轻量级的MobilenetV3网络作为骨干网络;所述MobileNetV3网络循环使用6次block基本单元,堆叠成最终的模型结构,最后通过全连接层输出最终的分类结果。
[0017]作为优选,步骤S3中,所述先验知识包括基于原生拾取的自带属性和基于特定类别的先验知识。
[0018]本专利技术还提供了基于深度学习的屏幕图标语义识别系统包括;智能拾取模块,用于采用原生拾取或CV拾取的方式,拾取屏幕界面的图标元素及图标元素的相关信息;所述图标元素的相关信息包括元素标签和元素的坐标;分类识别模块,用于将拾取到的图标元素送入元素分类模型,获得最终图标元素的类别;
校验模块,用于根据先验知识,对最终图标元素的类别进行校验,判断分类是否正确;下游任务应用模块,用于将最终确定的分类结果用于下游任务。
[0019]本专利技术与现有技术相比,有益效果是:(1)本专利技术通过屏幕语义识别技术,能够自动识别屏幕上的图标,使得机器能够像人一样能够理解图标背后的含义,从原先的“获取元素”升级到“获取并理解元素”,配合智能推荐等下游的任务,降低原有流程的开发复杂度,提高开发效率;举例来说,在IM软件的对话框中需要输入一句话并发送,使用传统的方式,需要拾取到输入窗口,即“获取元素”,然后再元素所在的位置上偏移一定的距离,输入文字,最终再发送,整个过程较为繁琐;而使用屏幕图标语义理解的方式,在拾取到输入窗口的同时,能够理解其是输入窗口,即“获取并理解元素”;在理解的基础上,结合下游的组件推荐功能,直接使用
ꢀ“
输入文本”的推荐组件,能够极大的减少操作步骤。
附图说明
[0020]图1为本专利技术中原生拾取元素解析方式的一种流程示意图;图2为本专利技术中CV拾取元素解析方式的一种流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度学习的屏幕图标语义识别方法,其特征在于,包括如下步骤;S1,采用原生拾取或CV拾取的方式,拾取屏幕界面的图标元素及图标元素的相关信息;所述图标元素的相关信息包括元素标签和元素的坐标;S2,将拾取到的图标元素送入元素分类模型,获得最终图标元素的类别;S3,根据先验知识,对最终图标元素的类别进行校验,判断分类是否正确;S4,将步骤S3中最终确定的分类结果用于下游任务。2.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法,其特征在于,步骤S1中,所述原生拾取方式为通过从操作系统的软件界面或者网页HTML界面,获取元素的标签以及根据拾取的元素坐标,使用屏幕截图的方式获取元素的图片。3.根据权利要求2所述的基于深度学习的屏幕图标语义识别方法,其特征在于,步骤S2中,对于原生拾取方式,结合获得的元素标签与元素分类模型得到的最终图标元素的类别,确定最终的元素语义。4.根据权利要求1所述的基于深度学习的屏幕图标语义识别方法,其特征在于,步骤S1中,所述CV拾取方式为针对远程桌面、Flash界面、或者操作系统指令未能覆盖到的软件,将整个屏幕界面视为一张图片,并根据拾取的元素坐标,使用屏幕截图的方式获取元素的图片。5.根据权利要求4所述的基于深度学习的屏幕图标语义识别方法,其特征在于,步骤S2中,对于CV拾取方式,直接根据元素分类模型得到的最终图标元素的类别,...

【专利技术属性】
技术研发人员:曹为华孙林君
申请(专利权)人:杭州实在智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1