一种RPA机器人智能元素定位拾取方法及系统技术方案

技术编号:26764528 阅读:34 留言:0更新日期:2020-12-18 23:40
本发明专利技术公开了一种RPA机器人智能元素定位拾取方法及系统,首先采用模板匹配、OCR和图像检索相结合的计算机视觉技术,解决远程桌面、虚拟系统等元素无法定位和操作的问题,提出的新方案能够更加准确和稳定地定位和拾取图片上元素的位置和内容;其次采用基于模板匹配的元素定位方案,不需要大量的标注样本,且更加稳定和可控;第三,融合像素点特征、角点特征和深度神经网络的卷积特征,使得模板匹配的效果更准确和稳定,同时OCR技术也能进一步辅助带文字信息的元素进行定位;最后,采用图像检索技术构建模板库检索引擎,能够精准判断要处理的页面图片属于哪种应用程序,从而解决多场景下模板库增长导致的检索和匹配速度慢的问题。

【技术实现步骤摘要】
一种RPA机器人智能元素定位拾取方法及系统
本专利技术涉及页面元素定位
,特别涉及一种RPA机器人智能元素定位拾取方法及系统。
技术介绍
伴随我国人口红利的逐渐消失,国家经济进入“新稳态”,众多企业将降低人力成本,提高人员效率作为核心发展诉求,利用智能化、自动化技术赋能改造现有的企业经营、管理和办公模式,将简单工作交由机器来做,成为新的趋势,并将给经济社会的发展带来新的动能。RPA(机器人流程自动化)技术是一种流程自动化技术,通过RPA软件提供的流程编辑器,可以设计和配置出能够自动执行的业务操作流程,并封装成“软件机器人”或“虚拟机器人”的形态,部署到生产环境和业务系统上执行,模拟人在计算机上的一系列操作,例如鼠标移动、鼠标点击、键盘输入、打开网页、获取页面信息、创建文件、输入文件内容、保存文件、删除文件等等,基于上述原子化的操作,实现跨系统的数据集成、汇总和分析,从而替代企业中普遍存在的大量简单、繁琐、重复的工作,并且能够在不进行大规模系统改造的情况下,解决不同部门、不同系统间的数据隔离和业务隔离现象,进一步提高流程处理效率、提高业务操作准确性、降低流程处理成本,最终满足企业的降本增效和业务转型的诉求。现有的传统RPA技术是通过对界面布局和代码的解析,来实现和业务系统的交互,例如通过一些桌面应用自动化工具提供的API(ApplicationProgrammingInterface,应用程序接口)接口实现操作系统中的鼠标键盘各类操作;通过解析浏览器页面的CSS(CascadingStyleSheets,层叠演示表)结构和JavaScript(一种开发网页页面的脚本语言)代码等实现浏览器页面元素,如按钮、输入框、文本行等的定位和操作;通过分析办公软件的源代码实现软件界面中元素的定位和操作。这种技术对操作对象的可见性和开放性有较高的要求,需要能通过接口或源码获取操作对象的位置和属性信息,从而执行相应操作。但在一些应用场景下会存在问题,例如对于远程桌面、虚拟系统、部分客户自己开发的办公软件等操作对象而言,所能获取的往往只是一张页面图片,并不能通过API接口或源码解析的方式进行定位和操作。这种情况下需要利用AI(ArtificialIntelligence,人工智能)领域的计算机视觉技术,进行操作元素的匹配、定位和操作。举例来说,远程桌面上的一个「提交」按钮,由于无法通过传统解析的方式进行定位,因而需要利用目标检测或图像比对的方式先定位到该按钮在整张页面图片中的位置,再配合鼠标的移动和点击操作完成「提交」动作。当前,在处理远程桌面等对象的元素定位方面,领域内的通用方法分为目标检测和模板匹配两种方式。目标检测:把页面中的各个元素视为图片中的目标物体,利用机器学习或深度学习中的目标检测算法进行处理,得到一个定位元素的矩形检测框,从而获得待操作元素的位置。该方法的不足之处,在于深度学习方法需要有大量带有检测框标注的样例图片才能有较高的定位准确率。对于网页或常见的办公软件来说,尚可通过合成的方式自动构造大量样本数据;然而对一些客户自己开发的或比较少见的业务软件,由于带有标注的样本数据获取困难,且深度学习模型之前没有学习过类似样例,元素检测和定位的效果并不理想。模板匹配:把页面中的各个元素视为一个图片模板,在整张页面图片中进行搜索和比对,并最终定位到匹配程度最高的位置,这里的匹配指的是图片模板和整张页面图片的部分区域的匹配。但这种方案存在的问题:一是传统的、单一的基于图片像素值或「特征点」的匹配方式,匹配的效果并不理想;二是随着应用场景的扩展,需要匹配的页面元素即模板的数量会越来越多,如果不采用合理的检索结构,会造成模板查询和匹配的速度慢,影响使用。由此,上述现有的RPA机器人元素定位拾取方式和相关技术存在以下缺点:1、远程桌面、虚拟系统等场景下元素无法定位传统RPA技术定位拾取的元素对象主要包括以下三类:系统应用程序、浏览器页面和客户端软件;系统应用程序中的元素一般通过桌面应用自动化工具提供的API进行定位,如基于MFC(MicrosoftFoundationClasses,微软基础类库)框架开发的程序可使用这种方案抓取句柄并执行各类操作;浏览器页面一般通过CSS解析的方式进行元素定位;客户端软件则借助软件开发语言(如Java)提供的各类插件进行元素定位;无论是上述哪种方式,在面对远程桌面、虚拟系统等场景时,均将失效,原因在于这类场景中,展示给RPA软件的仅仅是一张图片,无法获取其API接口或原始代码,因此只能借助计算机视觉技术来进行处理。2、基于目标检测的元素定位需要大量带标注样本数据为获得更高的目标检测精度,现有技术基本采用深度神经网络的方式,而使用深度学习的前提之一则是需要大量带有标注的样本数据提供训练,标注的格式一般是将页面图片上的各个元素,如按钮、文本框、功能图标以矩形框的形式标出,这种带标注的数据本身需要大量的图片素材和人力标注成本,对于浏览器页面或常见办公软件尚且可通过自动合成的方式构造;然而一些商用软件或客户自己开发的系统并无法提供大量的图片素材,因此目标检测的效果在这类场景下会大打折扣;另外,在页面样式和元素形态随浏览器、软件版本发生变更的情况下,基于深度学习方案的重新标注和训练时间会相对较长。3、传统的模板匹配技术匹配效果不稳定模板匹配是一种更稳定、更可行和更可控的元素定位方案;传统的模板匹配技术将待匹配元素作为模板图片,在整张页面图片上进行从左至右、从上至下的窗口滑动,并和整张页面图片上每一块和模板图片尺寸相同的区域进行比对,最终找到比对成功的子图及其位置,即为待定位元素的位置,比对方式包括逐像素点比对和特征点比对两种,①逐点比对的方式在页面图片发生分辨率变化、色度偏差等情况下,匹配效果将大受影响,实际场景也常常发生分辨率不一致的情况,例如模板图片对应的是一种浏览器分辨率,而实际执行匹配时因浏览器窗口的放大、缩小或自适应调整,分辨率发生了变化,则很容易出现模板图片对应的目标元素,在页面图片上尺寸发生改变,根据实验证明,页面图片的分辨率发生20%的变化的情况下,匹配结果已完全失准;②特征点比对的方式是对图片应用特征转换算法进行转换,而后提取特征描述因子进行比对;与前者相比能更有效的应对图片分辨率改变、旋转、尺度变化等情况;但采用单一的特征点比对方法,在发生图标、元素样式的轻微改变的情况下仍可能存在匹配失败的现象。4、模板图片数量的增长影响模板查询和匹配速度应用模板匹配方案时,需要为每一类应用程序预先制作一套元素模板库,库中包括各类元素、图标的截图图片;实际操作时,首先需要加载整张页面图片和对应的元素模板库,其次进行页面解析,在页面图片上定位各个元素或图标的位置,最后由流程编辑的用户选择需要拾取和操作哪个元素,之所以采用页面预先解析的方案,而不是在每次需要操作元素时直接截图并进行匹配,主要目的有两个:一是减少用户的截图操作,以提升用户体验,并规避因用户截图不准而导致的定位失准现象;二是当同一个页面存在多个一模一样的元素(如在软件中经常会出本文档来自技高网...

【技术保护点】
1.一种RPA机器人智能元素定位拾取方法,其特征在于,应用使用到图像检索模块、光学字符识别模块和模板匹配模块,具体包括以下操作步骤:/n图像检索模块首先应用深度神经网络训练一个页面分类模型,将各种不同的页面分类为指定的场景,同时图像检索模块底层图片库中保存了大量各类场景的页面图片和计算好的特征向量索引;/n页面图片输入图像检索模块,利用预训练好的神经网络的部分层作为特征提取器,输出经过深度神经网络计算得到的深度特征向量,深度特征向量进入向量搜索引擎,在图片库中找到与输入页面图片最相似的一张图片,并获得该图片对应的场景,进一步获取对应的图标模板库,即场景对应模板库;/n光学字符识别模块先进行文字检测,获取文本区域位置,然后根据文本区域位置在原图中裁剪得到文本块小图,送入文字识别网络,获取该文本块小图上的文本内容,最终返回结果为文本区域位置和对应的文本内容;/n将待解析的页面图片和图像检索模块输出的场景对应模板库作为模板匹配模块两个输入,完成页面图片和场景对应模板库中模板图片的特征提取,在模板图片的特征提取中融合了深度特征和角点特征,在页面图片中选择和模板图片特征相匹配的若干候选区域,并结合像素点特征做最终定位,确定最终的匹配区域;/n在完成模板匹配后,确定该模板图标在页面图片中的位置并进行保存,并判断是否完成整个场景对应模板库中图片的遍历,若为否则继续获取场景对应模板库中下一个模板图标执行匹配,否则输出页面图片解析结果,最终结合光学字符识别模块的输出结果,将页面文字信息和页面图标信息统一在页面图片中定位得到,并用于RPA编辑过程中的拾取和后续的实际执行。/n...

【技术特征摘要】
1.一种RPA机器人智能元素定位拾取方法,其特征在于,应用使用到图像检索模块、光学字符识别模块和模板匹配模块,具体包括以下操作步骤:
图像检索模块首先应用深度神经网络训练一个页面分类模型,将各种不同的页面分类为指定的场景,同时图像检索模块底层图片库中保存了大量各类场景的页面图片和计算好的特征向量索引;
页面图片输入图像检索模块,利用预训练好的神经网络的部分层作为特征提取器,输出经过深度神经网络计算得到的深度特征向量,深度特征向量进入向量搜索引擎,在图片库中找到与输入页面图片最相似的一张图片,并获得该图片对应的场景,进一步获取对应的图标模板库,即场景对应模板库;
光学字符识别模块先进行文字检测,获取文本区域位置,然后根据文本区域位置在原图中裁剪得到文本块小图,送入文字识别网络,获取该文本块小图上的文本内容,最终返回结果为文本区域位置和对应的文本内容;
将待解析的页面图片和图像检索模块输出的场景对应模板库作为模板匹配模块两个输入,完成页面图片和场景对应模板库中模板图片的特征提取,在模板图片的特征提取中融合了深度特征和角点特征,在页面图片中选择和模板图片特征相匹配的若干候选区域,并结合像素点特征做最终定位,确定最终的匹配区域;
在完成模板匹配后,确定该模板图标在页面图片中的位置并进行保存,并判断是否完成整个场景对应模板库中图片的遍历,若为否则继续获取场景对应模板库中下一个模板图标执行匹配,否则输出页面图片解析结果,最终结合光学字符识别模块的输出结果,将页面文字信息和页面图标信息统一在页面图片中定位得到,并用于RPA编辑过程中的拾取和后续的实际执行。


2.根据权利要求1所述的一种RPA机器人智能元素定位拾取方法,其特征在于,图像检索模块的深度特征向量提取具体为:将页面图片输入深度卷积神经网络的部分层进行计算,得到以向量形式表示的特征后进行降维,并通过加权全局求和得到图像的表示向量,其中权重体现了不同位置特征的重要性。


3.根据权利要求1所述的一种RPA机器人智能元素定位拾取方法,其特征在于,光学字符识别模块包括文字检测和文字识别两个主要子模块,文字检测子模块应用深度神经网络模型进行页面中文字信息的定位,输出结果是包含文字信息的一个矩形或多边形检测框,该检测框紧密贴着某段文字信息的边缘,并与其他区域的文字信息区分开;文字检测子模型同时需要从页面图片中将检测框内的小图片裁剪出作为文字识别子模型的输入,文字识别子模型以包含文字信息的检测框小图片作为输入,经过深度神经网络计算,得到检测框内具体的文字内容,最终整个光学字符识别模块的输出结果包括文字信息所在位置、文字内容两个部分。


4.根据权利要求3所述的一种RPA机器人智能元素定位拾取方法,其特征在于,文字识别子模型采用业内通用的卷积神经网络作为...

【专利技术属性】
技术研发人员:欧阳小刚
申请(专利权)人:杭州实在智能科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1