一种RPA机器人中图标检测方法及其系统技术方案

技术编号:30271766 阅读:17 留言:0更新日期:2021-10-09 21:27
本发明专利技术公开了一种RPA机器人中图标检测方法及其系统,获取标注好的页面图片中的按钮图标、并擦除按钮图标生成软件背景图,将获取到的按钮图标随机贴到软件背景图上以生成新的页面图片和标注文件;将原始标注好的训练数据和新生成的生成数据,分割成多张用于训练的固定大小的小图,并自动生成相应的标注文件,构成最终新的训练数据;根据新的训练数据对深度神经网络训练,获得按钮检测模型;输入需检测的页面图片,按照设置的固定切分尺寸和重叠量切分成多个切块图像,经过按钮检测模型检测输出每个切块图像上按钮图标的位置信息,再通过合并重新生成相对于输入的页面图片的位置信息,得到最终的按钮位置信息。得到最终的按钮位置信息。得到最终的按钮位置信息。

【技术实现步骤摘要】
一种RPA机器人中图标检测方法及其系统


[0001]本专利技术涉及RPA机器人
,特别涉及一种RPA机器人中图标检测方法及其系统。

技术介绍

[0002]伴随我国人口红利的逐渐消失,国家经济进入“新稳态”,众多企业将降低人力成本,提高人员效率作为核心发展诉求,利用智能化、自动化技术赋能改造现有的企业经营、管理和办公模式,将简单工作交由机器来做,成为新的趋势,并将给经济社会的发展带来新的动能。RPA(机器人流程自动化)技术是一种流程自动化技术,通过RPA软件提供的流程编辑器,可以设计和配置出能够自动执行的业务操作流程,并封装成“软件机器人”或“虚拟机器人”的形态,部署到生产环境和业务系统上执行,模拟人在计算机上的一系列操作,例如鼠标移动、鼠标点击、键盘输入、打开网页、获取页面信息、创建文件、输入文件内容、保存文件、删除文件等等,基于上述原子化的操作,实现跨系统的数据集成、汇总和分析,从而替代企业中普遍存在的大量简单、繁琐、重复的工作,并且能够在不进行大规模系统改造的情况下,解决不同部门、不同系统间的数据隔离和业务隔离现象,进一步提高流程处理效率、提高业务操作准确性、降低流程处理成本,最终满足企业的降本增效和业务转型的诉求。
[0003]现有的传统RPA技术是通过对界面布局和代码的解析,来实现和业务系统的交互,例如通过一些桌面应用自动化工具提供的API(Application Programming Interface,应用程序接口)接口实现操作系统中的鼠标键盘各类操作;通过解析浏览器页面的CSS(Cascading Style Sheets,层叠演示表)结构和JavaScript(一种开发网页页面的脚本语言)代码等实现浏览器页面元素,如按钮、输入框、文本行等的定位和操作;通过分析办公软件的源代码实现软件界面中元素的定位和操作。这种技术对操作对象的可见性和开放性有较高的要求,需要能通过接口或源码获取操作对象的位置和属性信息,从而执行相应操作。
[0004]但在一些应用场景下会存在问题,例如对于远程桌面、虚拟系统、部分客户自己开发的办公软件等操作对象而言,所能获取的往往只是一张页面图片,并不能通过API接口或源码解析的方式进行定位和操作。这种情况下需要利用AI(Artificial Intelligence,人工智能)领域的计算机视觉技术,进行操作元素的匹配、定位和操作。举例来说,远程桌面上的一个「提交」按钮,由于无法通过传统解析的方式进行定位,因而需要利用目标检测或图像比对的方式先定位到该按钮在整张页面图片中的位置,再配合鼠标的移动和点击操作完成「提交」动作。当前,在处理远程桌面等对象的元素定位方面,领域内的通用方法分为目标检测和模板匹配两种方式。
[0005]目标检测:把页面中的各个元素视为图片中的目标物体,利用机器学习或深度学习中的目标检测算法进行处理,得到一个定位元素的矩形检测框,从而获得待操作元素的位置。该方法的不足之处,在于深度学习方法需要有大量带有检测框标注的样例图片才能有较高的定位准确率。对于网页或常见的办公软件来说,尚可通过合成的方式自动构造大量样本数据;然而对一些客户自己开发的或比较少见的业务软件,由于带有标注的样本数
据获取困难,且深度学习模型之前没有学习过类似样例,元素检测和定位的效果并不理想。
[0006]模板匹配:把页面中的各个元素视为一个图片模板,在整张页面图片中进行搜索和比对,并最终定位到匹配程度最高的位置,这里的匹配指的是图片模板和整张页面图片的部分区域的匹配。但这种方案存在的问题:一是传统的、单一的基于图片像素值或「特征点」的匹配方式,匹配的效果并不理想;二是随着应用场景的扩展,需要匹配的页面元素即模板的数量会越来越多,如果不采用合理的检索结构,会造成模板查询和匹配的速度慢,影响使用。模板匹配会存在匹配不到的现象,从而影响最终的元素定位效果。
[0007]基于上述现有技术,现有的RPA机器人图标按钮拾取方式和相关技术存在以下缺点:1、远程桌面、虚拟系统等场景下图标按钮无法定位传统RPA技术定位拾取的元素对象主要包括以下三类:系统应用程序、浏览器页面和客户端软件。系统应用程序中的元素一般通过桌面应用自动化工具提供的API进行定位,如基于MFC框架开发的程序可使用这种方案抓取句柄并执行各类操作;浏览器页面一般通过CSS解析的方式进行元素定位;客户端软件则借助软件开发语言(如Java)提供的各类插件进行图标按钮定位。无论是上述哪种方式,在面对远程桌面、虚拟系统等场景时,均将失效,原因在于这类场景中,展示给RPA软件的仅仅是一张图片,无法获取其API接口或原始代码,因此只能借助计算机视觉技术来进行处理。
[0008]2、传统目标检测无法定位小图标按钮基于现有的检测方法,基于深度学习目标检测的元素定位技术需要大量标注样本的问题,即一个好的目标检测器需要大量的标注数据和昂贵的学习成本,并且不能够解决小目标漏检和误检的难题。
[0009]3、模板匹配技术匹配效果不稳定模板匹配技术将待匹配元素作为模板图片,在整张页面图片上进行从左至右、从上至下的窗口滑动,并且与整张页面图片上每一块和模板图片尺寸相同的区域进行比对,最终找到比对成功的子图及其位置,即为待定位元素的位置。模板匹配存在匹配不到和小图标无法匹配的情况,无法完全解决实际生产中遇到的问题。

技术实现思路

[0010]针对现有技术存在的不足,本专利技术的目的在于提供一种RPA机器人中按钮图标自动检测方法,能够有效解决通用目标检测方法存在的诸多不足,同时利用少量样本即可实现按钮图标的精准检测。
[0011]本专利技术的上述技术目的是通过以下技术方案得以实现的:一种RPA机器人中图标检测方法,包括以下步骤:步骤1,获取标注好的训练数据中每一张页面图片的按钮图标、并擦除页面图片中的按钮图标以生成软件背景图,将获取到的按钮图标随机贴到软件背景图上以生成新的页面图片和标注文件;步骤2,将原始标注好的训练数据和步骤1中新生成的生成数据,采用重叠切分方式分割成多张用于训练的固定大小的小图,并自动生成相应的标注文件,构成最终新的训练数据;
步骤3,根据新的训练数据对深度神经网络训练,获得按钮检测模型;步骤4,输入需检测的页面图片,按照设置的固定切分尺寸和重叠量切分成多个切块图像,经过按钮检测模型检测输出每个切块图像上按钮图标的检测结果,检测结果包含有每个切块图像上按钮图标的位置信息,将每个切块图像的检测结果采用合并算法,重新生成相对于输入的页面图片的位置信息,得到最终的按钮图标位置信息。
[0012]进一步优选为,所述步骤1具体包括以下步骤:步骤1.1,将页面图片上标注好的按钮图标进行裁剪并保存为单独的文件以形成标注文件;步骤1.2,将页面图片上标注好的按钮图标用按钮图标周围的像素进行填充,将原先带有按钮图标的页面图片转化成没有按钮图标的软件背景图;步骤1.3,将获取到的按钮图标随机贴到软件背景图上,随机生成新的页面图片。
[0013]进一步优选为,标注文件内保存按钮图标,按钮图标一部分来自于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种RPA机器人中图标检测方法,其特征在于,包括以下步骤:步骤1,获取标注好的训练数据中每一张页面图片的按钮图标、并擦除页面图片中的按钮图标以生成软件背景图,将获取到的按钮图标随机贴到软件背景图上以生成新的页面图片和标注文件;步骤2,将原始标注好的训练数据和步骤1中新生成的生成数据,采用重叠切分方式分割成多张用于训练的固定大小的小图,并自动生成相应的标注文件,构成最终新的训练数据;步骤3,根据新的训练数据对深度神经网络训练,获得按钮检测模型;步骤4,输入需检测的页面图片,按照设置的固定切分尺寸和重叠量切分成多个切块图像,经过按钮检测模型检测输出每个切块图像上按钮图标的检测结果,检测结果包含有每个切块图像上按钮图标的位置信息,将每个切块图像的检测结果采用合并算法,重新生成相对于输入的页面图片的位置信息,得到最终的按钮图标位置信息。2.根据权利要求1所述的一种RPA机器人中图标检测方法,其特征在于,所述步骤1具体包括以下步骤:步骤1.1,将页面图片上标注好的按钮图标进行裁剪并保存为单独的文件以形成标注文件;步骤1.2,将页面图片上标注好的按钮图标用按钮图标周围的像素进行填充,将原先带有按钮图标的页面图片转化成没有按钮图标的软件背景图;步骤1.3,将获取到的按钮图标随机贴到软件背景图上,随机生成新的页面图片。3.根据权利要求1或2所述的一种RPA机器人中图标检测方法,其特征在于,标注文件内保存按钮图标,按钮图标一部分来自于页面图片的标注提取,另外一部分来自于网络上各种免费的按钮设计图标。4.根据权利要求1所述的一种RPA机器人中图标检测方法,其特征在于,所述步骤4具体包括以下步骤:步骤4.1,输入需检测的页面图片采用切分算法切分成多个固定切分尺寸和重叠量的切块图像;步骤4.2,对每个切块图像进行归一化预处理,具体将每个切块图像0

255的像素值归一到0

1;步骤4.3,利用训练好的按钮检测模型对预处理后的切块图像进行检测,得到每个切块图像上按钮图标的位置信息;步骤4.4,对每个切块图像上的按钮图标进行非极大值抑制处理,去掉无效的检测框,输出有效的检测结果;步骤4.5,将多个切块图像上...

【专利技术属性】
技术研发人员:王凯欧阳小刚
申请(专利权)人:杭州实在智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1