RPA界面动态表格的拾取和匹配方法及系统技术方案

技术编号:37452554 阅读:24 留言:0更新日期:2023-05-06 09:24
本发明专利技术属于RPA技术领域,具体涉及RPA界面动态表格的拾取和匹配方法及系统。方法包括S1,输入图片,对图片进行特征提取,得到仅包含文字的图片,并序列化后输出为文本行内容;S2,对输入图片中的表格区域进行定位并判断表格有无线框;S3,通过不同方式将有线框表格和对无线框表格,输出为表格行列结构;S4,将文本行内容填入到表格行列结构中,输出可用表格结构文件。系统包括光学字符识别模块,流程控制模块,表格识别模块,文字表格适配模块。本发明专利技术具有综合应用RPA技术、OCR技术、表格识别技术和版面分析技术,以提供更高效的页面表格信息获取功能的特点。取功能的特点。取功能的特点。

【技术实现步骤摘要】
RPA界面动态表格的拾取和匹配方法及系统


[0001]本专利技术属于RPA
,具体涉及RPA界面动态表格的拾取和匹配方法及系统。

技术介绍

[0002]随着我国政企数字化、智能化的转型,一种流程自动化技术RPA(Robotic Process Automa

tion,机器人流程自动化)逐渐进入广大群众视野。RPA软件可以通过编辑器为大多数可执行、可重复的业务场景提供设计、配置自动执行的流程脚本并以软件机器人的形式部署到计算机业务系统上实现一定程度上的自动化生产替代人工的功能。RPA软件通过模拟人工在计算机上的操作如鼠标移动点击、键盘输入、打开网页文件等方式实现系统信息获取、分析、修改、分发,可以在标准化的业务流程中代替人工完成大量可重复性的工作,提高工作效率、降低人力成本,实现政企降本增效、数字智能化转型的需求。而软件表格则是RPA流程中十分常见的信息存取格式,亦是业务场景中实用可靠的工具。
[0003]传统RPA的技术通过调用软件API(Application Programming Interface, 应用程序接口)、解析网页布局CSS(Cascading Style Sheets, 层叠演示表)和JavaScript(一种开发网页页面的脚本语言)代码,来实现系统信息的获取,再通过按钮、输入框等界面元素实现信息的修改、交互。软件表格如EXCEL(一种由微软公司开发的办公电子制表软件)就可以通过传统RPA技术进行获取、操作,实现数据统计筛查等实用业务功能。
[0004]然而传统RPA的技术具有一定的局限性,在API接口不开放、无法解析源码的场景,如定制化办公软件、远程桌面等,便无法直接获取相关的系统信息仅能获取到界面截图。此时就需要使用AI(Artificial Intelligence,人工智能)计算机视觉技术来帮助实现传统RPA无法完成的任务。而类似场景的软件表格就需要用到计算机视觉相关的OCR(Optical Character Recognition, 光学字符识别模块)技术、表格识别技术以及版面分析技术来实现智能表格定位与表格信息获取。
[0005]现有的RPA机器人表格定位拾取方式和相关技术存在以下缺点:1.远程桌面、虚拟系统、定制化办公软件等场景下表格元素难以定位和分析;2.单一模式的表格识别技术精度不足或适用场景范围较小;3.常规OCR、表格识别技术只能获取静态图片的表格信息,无法应对表格结构、大小、位置的变化;4.软件界面复杂干扰项多,影响表格区域定位;5.常规表格识别系统复杂,系统资源占用高,运行速度慢;基于上述问题,设计一种综合应用RPA技术、OCR技术、表格识别技术和版面分析技术,以提供更高效的页面表格信息获取功能的RPA界面动态表格的拾取和匹配方法及系统,就显得十分重要。

技术实现思路

[0006]本专利技术是为了克服现有技术中,传统RPA技术具有的局限性,在API接口不开放、无
法解析源码的场景,无法直接获取相关的系统信息仅能获取到界面截图以及无法实现智能表格定位与表格信息获取的问题,提供了一种综合应用RPA技术、OCR技术、表格识别技术和版面分析技术,以提供更高效的页面表格信息获取功能的RPA界面动态表格的拾取和匹配方法及系统。
[0007]为了达到上述专利技术目的,本专利技术采用以下技术方案:RPA界面动态表格的拾取和匹配方法,包括如下步骤;S1,输入图片,对图片进行特征提取,对图片中文字所处的位置、大小、方向信息进行检测,得到仅包含文字的图片,并将仅包含文字的图片序列化并输出为文本行内容;S2,对输入图片中的表格区域进行定位并判断表格有无线框;S3,将有线框表格的可见单元格边框进行检测解析、并将框线结构转化为表格行列结构;对无线框表格,将无线框表格中的内容信息进行行列分组获得表格行列结构,并根据表格行列结构画出虚拟表格线,得到最终的表格行列结构;S4,将步骤S1中所述文本行内容填入到步骤S3获得的表格行列结构中,输出可用表格结构文件。
[0008]作为优选,步骤S1包括如下步骤:S11,通过卷积神经网络提取图片特征,并将图片中文字所在处的特征与非文字区域的背景特征区分开,通过是/非文字区域的掩膜图实现对训练数据的标准化标注以及完成OCR检测识别模型的训练过程;S12,通过卷积神经网络提取图片特征,并使用循环神经网络将仅包含文字的图片序列化,并利用联接时序分类的方式对序列化的仅包含文字的图片进行解码,得到最终的文本行内容。
[0009]作为优选,步骤S2包括如下步骤:S21,通过目标检测或图像分割将输入图片中的标题、正文、插图、表格的不同区域划分出来并赋予标签,并对输入图片中的表格区域进行定位;S22,使用锚点来进行辅助定位:将表格第一行作为表头锚点,表格周边最近的若干元素作为辅助定位锚点;在RPA流程执行过程中先对全局进行锚点匹配,剔除掉异常锚点后,在多数锚点能够匹配到的情况下通过各个锚点预存的目标表格相对位置进行判断,并确定目标表格所处的区块;最后进行表头字段锚点的一对一匹配,并获得表格区域。
[0010]作为优选,当步骤S2过程执行异常时,通过软件窗口信息在对应窗口的原始相对坐标进行掩码截图;所述软件窗口信息包括窗口缩放比、屏幕分辨率。
[0011]作为优选,步骤S3包括如下步骤:S31,针对有线框表格,通过两个unet编解码结构并联,对有线框表格的横竖框线进行提取,并通过计算机视觉图像处理技术对表格线框检测模型的输出结构进行残缺补齐和过滤无效线条,最终得到目标图片区域中有线框表格的完整框线结构,再采用图像联通域算法得到有线框表格中每一个单元格的具体位置和大小;S32,对无线框表格,使用yolov4目标检测模型检测每一个单元格,再使用GNN网络对于单元格行列排布进行初步预测,最终通过计算机视觉投影切分的方法对GNN网络获得
的初步预测结果进行修正,得到每个单元格行列位置信息,并组合成为最终的表格输出结果;其中,所述通过计算机视觉投影切分的方法对GNN网络获得的初步预测结果进行修正的过程如下:将每一行或列的单元格位置区域绘制到纯色背景图上做横或竖向投影;根据投影分布计算行或列中心位置以及有效宽度;将不符合设定要求的单元格剔除出去,添加符合设定要求的行或列区间的单元格。
[0012]作为优选,步骤S4包括如下步骤:S41,通过切分OCR文本行的方式将每个单元格与每个单元格中相对应的文字内容关联起来,获得完整的表格结构信息。
[0013]本专利技术还提供了RPA界面动态表格的拾取和匹配系统,包括:光学字符识别模块,用于输入图片,对图片进行特征提取,对图片中文字所处的位置、大小、方向信息进行检测,得到仅包含文字的图片,并将仅包含文字的图片序列化并输出为文本行内容;流程控制模块,用于对输入图片中的表格区域进行定位并判断表格有无线框;表格识别模块,用于将有线框表格的可见单元格边框进行检测解析、并将框线结构转化为表格行列结构;对无线框表格,将无线框表格中的内容信息进行行列分组获得表格行列结构,并根据表格行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.RPA界面动态表格的拾取和匹配方法,其特征在于,包括如下步骤;S1,输入图片,对图片进行特征提取,对图片中文字所处的位置、大小、方向信息进行检测,得到仅包含文字的图片,并将仅包含文字的图片序列化并输出为文本行内容;S2,对输入图片中的表格区域进行定位并判断表格有无线框;S3,将有线框表格的可见单元格边框进行检测解析、并将框线结构转化为表格行列结构;对无线框表格,将无线框表格中的内容信息进行行列分组获得表格行列结构,并根据表格行列结构画出虚拟表格线,得到最终的表格行列结构;S4,将步骤S1中所述文本行内容填入到步骤S3获得的表格行列结构中,输出可用表格结构文件。2.根据权利要求1所述的RPA界面动态表格的拾取和匹配方法,其特征在于,步骤S1包括如下步骤:S11,通过卷积神经网络提取图片特征,并将图片中文字所在处的特征与非文字区域的背景特征区分开,通过是/非文字区域的掩膜图实现对训练数据的标准化标注以及完成OCR检测识别模型的训练过程;S12,通过卷积神经网络提取图片特征,并使用循环神经网络将仅包含文字的图片序列化,并利用联接时序分类的方式对序列化的仅包含文字的图片进行解码,得到最终的文本行内容。3.根据权利要求1所述的RPA界面动态表格的拾取和匹配方法,其特征在于,步骤S2包括如下步骤:S21,通过目标检测或图像分割将输入图片中的标题、正文、插图、表格的不同区域划分出来并赋予标签,并对输入图片中的表格区域进行定位;S22,使用锚点来进行辅助定位:将表格第一行作为表头锚点,表格周边最近的若干元素作为辅助定位锚点;在RPA流程执行过程中先对全局进行锚点匹配,剔除掉异常锚点后,在多数锚点能够匹配到的情况下通过各个锚点预存的目标表格相对位置进行判断,并确定目标表格所处的区块;最后进行表头字段锚点的一对一匹配,并获得表格区域。4.根据权利要求3所述的RPA界面动态表格的拾取和匹配方法,其特征在于,当步骤S2过程执行异常时,通过软件窗口信息在对应窗口的原始相对坐标进行掩码截图;所述软件窗口信息包括窗口缩放比、屏幕分辨率。5.根据权利要求1所述的RPA界面动态表格的拾取和匹配方法,其特征在于,步骤S3包括如下步骤:S31,针对有线框表格,通过两个unet编解码结构并联,对有线框表格的横竖框线进行提取,并通过计算机视觉图像处理技术对表格线框检测模型的输出结构进行残缺补齐和过滤无效线条,最终得到目标图片区域中有线框表格的完整框线结构,再采用图像联通域算法得到有线框表格中每一个单元格的具体位置和大小;S32,对无线框表格,使用yolov4目标检测模型检测每一个单元格,再使用GNN网络对于单元格行...

【专利技术属性】
技术研发人员:朱天一
申请(专利权)人:杭州实在智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1