【技术实现步骤摘要】
一种RPA机器人智能元素定位拾取方法及系统
本专利技术涉及页面元素定位
,特别涉及一种RPA机器人智能元素定位拾取方法及系统。
技术介绍
伴随我国人口红利的逐渐消失,国家经济进入“新稳态”,众多企业将降低人力成本,提高人员效率作为核心发展诉求,利用智能化、自动化技术赋能改造现有的企业经营、管理和办公模式,将简单工作交由机器来做,成为新的趋势,并将给经济社会的发展带来新的动能。RPA(机器人流程自动化)技术是一种流程自动化技术,通过RPA软件提供的流程编辑器,可以设计和配置出能够自动执行的业务操作流程,并封装成“软件机器人”或“虚拟机器人”的形态,部署到生产环境和业务系统上执行,模拟人在计算机上的一系列操作,例如鼠标移动、鼠标点击、键盘输入、打开网页、获取页面信息、创建文件、输入文件内容、保存文件、删除文件等等,基于上述原子化的操作,实现跨系统的数据集成、汇总和分析,从而替代企业中普遍存在的大量简单、繁琐、重复的工作,并且能够在不进行大规模系统改造的情况下,解决不同部门、不同系统间的数据隔离和业务隔离现象,进一步提高流程处理效率、提高业务操作准确性、降低流程处理成本,最终满足企业的降本增效和业务转型的诉求。现有的传统RPA技术是通过对界面布局和代码的解析,来实现和业务系统的交互,例如通过一些桌面应用自动化工具提供的API(ApplicationProgrammingInterface,应用程序接口)接口实现操作系统中的鼠标键盘各类操作;通过解析浏览器页面的CSS(CascadingStyleSheets, ...
【技术保护点】
1.一种RPA机器人智能元素定位拾取方法,其特征在于,应用使用到图像检索模块、光学字符识别模块和模板匹配模块,具体包括以下操作步骤:/n图像检索模块首先应用深度神经网络训练一个页面分类模型,将各种不同的页面分类为指定的场景,同时图像检索模块底层图片库中保存了大量各类场景的页面图片和计算好的特征向量索引;/n页面图片输入图像检索模块,利用预训练好的神经网络的部分层作为特征提取器,输出经过深度神经网络计算得到的深度特征向量,深度特征向量进入向量搜索引擎,在图片库中找到与输入页面图片最相似的一张图片,并获得该图片对应的场景,进一步获取对应的图标模板库,即场景对应模板库;/n光学字符识别模块先进行文字检测,获取文本区域位置,然后根据文本区域位置在原图中裁剪得到文本块小图,送入文字识别网络,获取该文本块小图上的文本内容,最终返回结果为文本区域位置和对应的文本内容;/n将待解析的页面图片和图像检索模块输出的场景对应模板库作为模板匹配模块两个输入,完成页面图片和场景对应模板库中模板图片的特征提取,在模板图片的特征提取中融合了深度特征和角点特征,在页面图片中选择和模板图片特征相匹配的若干候选区域,并结 ...
【技术特征摘要】
1.一种RPA机器人智能元素定位拾取方法,其特征在于,应用使用到图像检索模块、光学字符识别模块和模板匹配模块,具体包括以下操作步骤:
图像检索模块首先应用深度神经网络训练一个页面分类模型,将各种不同的页面分类为指定的场景,同时图像检索模块底层图片库中保存了大量各类场景的页面图片和计算好的特征向量索引;
页面图片输入图像检索模块,利用预训练好的神经网络的部分层作为特征提取器,输出经过深度神经网络计算得到的深度特征向量,深度特征向量进入向量搜索引擎,在图片库中找到与输入页面图片最相似的一张图片,并获得该图片对应的场景,进一步获取对应的图标模板库,即场景对应模板库;
光学字符识别模块先进行文字检测,获取文本区域位置,然后根据文本区域位置在原图中裁剪得到文本块小图,送入文字识别网络,获取该文本块小图上的文本内容,最终返回结果为文本区域位置和对应的文本内容;
将待解析的页面图片和图像检索模块输出的场景对应模板库作为模板匹配模块两个输入,完成页面图片和场景对应模板库中模板图片的特征提取,在模板图片的特征提取中融合了深度特征和角点特征,在页面图片中选择和模板图片特征相匹配的若干候选区域,并结合像素点特征做最终定位,确定最终的匹配区域;
在完成模板匹配后,确定该模板图标在页面图片中的位置并进行保存,并判断是否完成整个场景对应模板库中图片的遍历,若为否则继续获取场景对应模板库中下一个模板图标执行匹配,否则输出页面图片解析结果,最终结合光学字符识别模块的输出结果,将页面文字信息和页面图标信息统一在页面图片中定位得到,并用于RPA编辑过程中的拾取和后续的实际执行。
2.根据权利要求1所述的一种RPA机器人智能元素定位拾取方法,其特征在于,图像检索模块的深度特征向量提取具体为:将页面图片输入深度卷积神经网络的部分层进行计算,得到以向量形式表示的特征后进行降维,并通过加权全局求和得到图像的表示向量,其中权重体现了不同位置特征的重要性。
3.根据权利要求1所述的一种RPA机器人智能元素定位拾取方法,其特征在于,光学字符识别模块包括文字检测和文字识别两个主要子模块,文字检测子模块应用深度神经网络模型进行页面中文字信息的定位,输出结果是包含文字信息的一个矩形或多边形检测框,该检测框紧密贴着某段文字信息的边缘,并与其他区域的文字信息区分开;文字检测子模型同时需要从页面图片中将检测框内的小图片裁剪出作为文字识别子模型的输入,文字识别子模型以包含文字信息的检测框小图片作为输入,经过深度神经网络计算,得到检测框内具体的文字内容,最终整个光学字符识别模块的输出结果包括文字信息所在位置、文字内容两个部分。
4.根据权利要求3所述的一种RPA机器人智能元素定位拾取方法,其特征在于,文字识别子模型采用业内通用的卷积神经网络作为...
【专利技术属性】
技术研发人员:欧阳小刚,
申请(专利权)人:杭州实在智能科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。