一种RPA机器人智能元素定位拾取方法及系统技术方案

技术编号：26764528 阅读：57 留言：0更新日期：2020-12-18 23:40

本发明专利技术公开了一种RPA机器人智能元素定位拾取方法及系统，首先采用模板匹配、OCR和图像检索相结合的计算机视觉技术，解决远程桌面、虚拟系统等元素无法定位和操作的问题，提出的新方案能够更加准确和稳定地定位和拾取图片上元素的位置和内容；其次采用基于模板匹配的元素定位方案，不需要大量的标注样本，且更加稳定和可控；第三，融合像素点特征、角点特征和深度神经网络的卷积特征，使得模板匹配的效果更准确和稳定，同时OCR技术也能进一步辅助带文字信息的元素进行定位；最后，采用图像检索技术构建模板库检索引擎，能够精准判断要处理的页面图片属于哪种应用程序，从而解决多场景下模板库增长导致的检索和匹配速度慢的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种RPA机器人智能元素定位拾取方法及系统
本专利技术涉及页面元素定位
，特别涉及一种RPA机器人智能元素定位拾取方法及系统。
技术介绍
伴随我国人口红利的逐渐消失，国家经济进入“新稳态”，众多企业将降低人力成本，提高人员效率作为核心发展诉求，利用智能化、自动化技术赋能改造现有的企业经营、管理和办公模式，将简单工作交由机器来做，成为新的趋势，并将给经济社会的发展带来新的动能。RPA（机器人流程自动化）技术是一种流程自动化技术，通过RPA软件提供的流程编辑器，可以设计和配置出能够自动执行的业务操作流程，并封装成“软件机器人”或“虚拟机器人”的形态，部署到生产环境和业务系统上执行，模拟人在计算机上的一系列操作，例如鼠标移动、鼠标点击、键盘输入、打开网页、获取页面信息、创建文件、输入文件内容、保存文件、删除文件等等，基于上述原子化的操作，实现跨系统的数据集成、汇总和分析，从而替代企业中普遍存在的大量简单、繁琐、重复的工作，并且能够在不进行大规模系统改造的情况下，解决不同部门、不同系统间的数据隔离和业务隔离现象，进一步提高流程...

【技术保护点】
1.一种RPA机器人智能元素定位拾取方法，其特征在于，应用使用到图像检索模块、光学字符识别模块和模板匹配模块，具体包括以下操作步骤：/n图像检索模块首先应用深度神经网络训练一个页面分类模型，将各种不同的页面分类为指定的场景，同时图像检索模块底层图片库中保存了大量各类场景的页面图片和计算好的特征向量索引；/n页面图片输入图像检索模块，利用预训练好的神经网络的部分层作为特征提取器，输出经过深度神经网络计算得到的深度特征向量，深度特征向量进入向量搜索引擎，在图片库中找到与输入页面图片最相似的一张图片，并获得该图片对应的场景，进一步获取对应的图标模板库，即场景对应模板库；/n光学字符识别模块先进行文字...

【技术特征摘要】
1.一种RPA机器人智能元素定位拾取方法，其特征在于，应用使用到图像检索模块、光学字符识别模块和模板匹配模块，具体包括以下操作步骤：
图像检索模块首先应用深度神经网络训练一个页面分类模型，将各种不同的页面分类为指定的场景，同时图像检索模块底层图片库中保存了大量各类场景的页面图片和计算好的特征向量索引；
页面图片输入图像检索模块，利用预训练好的神经网络的部分层作为特征提取器，输出经过深度神经网络计算得到的深度特征向量，深度特征向量进入向量搜索引擎，在图片库中找到与输入页面图片最相似的一张图片，并获得该图片对应的场景，进一步获取对应的图标模板库，即场景对应模板库；
光学字符识别模块先进行文字检测，获取文本区域位置，然后根据文本区域位置在原图中裁剪得到文本块小图，送入文字识别网络，获取该文本块小图上的文本内容，最终返回结果为文本区域位置和对应的文本内容；
将待解析的页面图片和图像检索模块输出的场景对应模板库作为模板匹配模块两个输入，完成页面图片和场景对应模板库中模板图片的特征提取，在模板图片的特征提取中融合了深度特征和角点特征，在页面图片中选择和模板图片特征相匹配的若干候选区域，并结合像素点特征做最终定位，确定最终的匹配区域；
在完成模板匹配后，确定该模板图标在页面图片中的位置并进行保存，并判断是否完成整个场景对应模板库中图片的遍历，若为否则继续获取场景对应模板库中下一个模板图标执行匹配，否则输出页面图片解析结果，最终结合光学字符识别模块的输出结果，将页面文字信息和页面图标信息统一在页面图片中定位得到，并用于RPA编辑过程中的拾取和后续的实际执行。

2.根据权利要求1所述的一种RPA机器人智能元素定位拾取方法，其特征在于，图像检索模块的深度特征向量提取具体为：将页面图片输入深度卷积神经网络的部分层进行计算，得到以向量形式表示的特征后进行降维，并通过加权全局求和得到图像的表示向量，其中权重体现了不同位置特征的重要性。

3.根据权利要求1所述的一种RPA机器人智能元素定位拾取方法，其特征在于，光学字符识别模块包括文字检测和文字识别两个主要子模块，文字检测子模块应用深度神经网络模型进行页面中文字信息的定位，输出结果是包含文字信息的一个矩形或多边形检测框，该检测框紧密贴着某段文字信息的边缘，并与其他区域的文字信息区分开；文字检测子模型同时需要从页面图片中将检测框内的小图片裁剪出作为文字识别子模型的输入，文字识别子模型以包含文字信息的检测框小图片作为输入，经过深度神经网络计算，得到检测框内具体的文字内容，最终整个光学字符识别模块的输出结果包括文字信息所在位置、文字内容两个部分。

4.根据权利要求3所述的一种RPA机器人智能元素定位拾取方法，其特征在于，文字识别子模型采用业内通用的卷积神经网络作为...

【专利技术属性】
技术研发人员：欧阳小刚，
申请(专利权)人：杭州实在智能科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人