基于RPA及AI的表格内容提取方法、装置、设备及介质制造方法及图纸

技术编号:27060925 阅读:44 留言:0更新日期:2021-01-15 14:41
本发明专利技术公开一种基于RPA及AI的表格内容提取方法、装置、设备及介质,其中,该方法包括:S1、获取设定区域中的图片,所述图片中包含表格;S2、对所述图片进行识别,得到表格对应的第一识别结果;S3、如果接收到表格信息提取指令,则从第一识别结果中提取与表格信息提取指令对应的表格内容。通过采用上述技术方案,实现了将非结构化表格转化为结构化表格,极大地提高了用户的工作效率和表格内容提取的准确率。

【技术实现步骤摘要】
基于RPA及AI的表格内容提取方法、装置、设备及介质
本专利技术涉及表格处理
,具体而言,涉及一种基于RPA及AI的表格内容提取方法、装置、设备及介质。
技术介绍
RPA(RoboticProcessAutomation,机器人流程自动化),是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。AI(ArtificialIntelligence,人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。RPA具有独特的优势:低代码、非侵入。低代码是说,RPA不需要很高的IT水平就能操作,不懂编程的业务人员也能开发流程;非侵入是说,RPA可以模拟人的操作,不用软件系统开放接口。但是传统的RPA具有一定的局限性:只能基于固定的规则,并且应用场景受限。随着AI技术的不断发展,RPA与AI深度融合克服了传统RPA的局限,RPA+AI=Handwork+Headwork,正在极大的改变劳动力的价值。随着RPA的发展,RPA的结构化数据处理逐步转向结构化与非结构化结合的数据处理,而结构化处理往往伴随着大量的代码,这样对于产品使用者要求很高。例如,RPA在处理任务的过程中,会遇到大量非结构化和结构化的表格数据,目前的RPA产品在对表格数据进行处理时,首先需要填写多个认证Key(秘钥),然后需要调用相关接口,再根据调用接口的结果编写逻辑性很强的代码,把需要识别的表格转成JSON(JavaScriptObjectNotation,基于JavaScript编程语言的一种轻量级的数据交换格式)结构再进行其他处理。对于用户而言,由于在RPA产品使用过程中,特别是在表格内容提取中需要编写大量代码,导致使用门槛相对较高。在使用过程中,用户操作不仅不连贯且非常容易出错。此外,用户还需要反复修改代码,费时费力,导致工作效率低下。
技术实现思路
本专利技术提供一种基于RPA及AI的表格内容提取方法、装置、设备及介质,用以克服现有技术中存在的至少一个技术问题。第一方面,本专利技术实施例提供了一种基于RPA及AI的表格内容提取方法,该方法包括:S1、获取设定区域中的图片,所述图片中包含表格;S2、对所述图片进行识别,得到表格对应的第一识别结果;S3、如果接收到表格信息提取指令,则从所述第一识别结果中提取与所述表格信息提取指令对应的表格内容。可选的,步骤S2具体包括:S21、对所述图片进行光学字符识别OCR识别,得到表格数组,所述表格数组中存储有各表格的行列信息;S22、对所述表格数组进行解析,得到各表格对应的第一识别结果,该第一识别结果包括各个表格在所述图片中的索引序号,以及各表格中各个单元格的行列索引和单元格内容。可选的,所述图片的识别结果中还包括对非表格内容对应的第二识别结果;相应的,所述表格信息提取指令包括全部表格信息提取指令;所述全部信息提取指令包括全部图片内容提取子指令和所有表格提取子指令;相应的,步骤S3,具体包括:S31、如果接收到所有表格提取子指令,则从所述第一识别结果中提取所有表格内容;和/或,S31、如果接收到全部图片内容提取子指令,则从所述第一识别结果中提取所有表格内容,并提取所述第二识别结果的内容。可选的,所述表格信息提取指令包括部分表格信息提取指令;所述部分表格信息提取指令包括提取类型和待提取内容对应的位置信息;相应的,步骤S3,具体包括:S31、如果接收到所述部分表格信息提取指令,则按照所述提取类型,从所述第一识别结果中提取所述位置信息对应的表格内容;其中,所述提取类型包括区域提取、整行提取、整列提取和单元格提取。可选的,所述方法还包括:S32、如果接收到非表格文字提取指令,则从图片非表格内容对应的第二识别结果中提取所述非表格文字提取指令对应的非表格文字。可选的,在步骤S31之后,所述方法还包括:S4、如果接收到所有表格存储指令,则获取第一存储文件的文件路径,所述第一存储文件用于存储图片的识别结果;S5、对于图片中的各个表格,根据表格对应的索引序号的顺序,确定各表格在所述存储文件中对应的工作表sheet;S6、对于任意一个表格,根据该表格中各个单元格的位置信息,将各单元格内容写入到与该表格对应的sheet中。可选的,在步骤S31之后,所述方法还包括:S4、如果接收到全部图片内容存储指令,则获取第二存储文件的文件路径,所述第二存储文件用于存储图片的识别结果;S5、对于图片中的各个表格,根据表格对应的索引序号的顺序写入所述第二存储文件的设定sheet中;并且,对于图片中的非表格内容,获取该非表格内容与图片中表格的相对位置关系,并按照所述相对位置关系,将非表格内容存储该所述设定sheet中。第二方面,本专利技术实施例提供了一种基于RPA及AI的RPA及AI的表格内容提取装置,该装置包括:图片获取模块,被配置为:获取设定区域中的图片,所述图片中包含表格;图片识别模块,被配置为:对所述图片进行识别,得到表格对应的第一识别结果;表格内容提取模块,被配置为:如果接收到表格信息提取指令,则从所述第一识别结果中提取与所述信息提取指令对应的表格内容。可选的,所述图片识别模块,具体被配置为:对所述图片进行光学字符识别OCR识别,得到表格数组,所述表格数组中存储有各表格的行列信息;对所述表格数组进行解析,得到各表格对应的第一识别结果,该第一识别结果包括各个表格在所述图片中的索引序号,以及各表格中各个单元格的行列索引和单元格内容。可选的,所述图片的识别结果中还包括对非表格内容对应的第二识别结果;所述表格信息提取指令包括全部表格信息提取指令;所述全部信息提取指令包括全部图片内容提取子指令和所有表格提取子指令;相应的,所述表格内容提取模块,包括:所有表格提取单元,被配置为:如果接收到所有表格提取子指令,则从所述第一识别结果中提取所有表格内容;和/或,所有图片内容提取单元,被配置为:如果接收到全部图片内容提取子指令,则从所述第一识别结果中提取所有表格内容,并提取所述第二识别结果的内容。可选的,所述表格信息提取指令包括部分表格信息提取指令;所述部分表格信息提取指令包括提取类型和待提取内容对应的位置信息;相应的,所述表格内容提取模块,包括:部分表格内容提取单元,被配置为:如果接收到所述部分表格信息提取指令,则按照所述提取类型,从所述第一识别结果中提取所述位置信息对应的表格内容;其中,所述提取类型包括区域提取、整行提取、整列提取和单元格提取。可选的,所述装置还包括:非表格文字提取单元,被配置为:如果接收到非表格文字提取指令,则从图片非表格内容对应的第二识别结果中提取所述非表格文字提取指令对应的非表格文字。可选的,在提取所有表格内容之后,所述装置还包括:第一本文档来自技高网
...

【技术保护点】
1.一种基于RPA及AI的表格内容提取方法,其特征在于,包括:/nS1、获取设定区域中的图片,所述图片中包含表格;/nS2、对所述图片进行识别,得到所述表格对应的第一识别结果;/nS3、如果接收到表格信息提取指令,则从所述第一识别结果中提取与所述表格信息提取指令对应的表格内容。/n

【技术特征摘要】
1.一种基于RPA及AI的表格内容提取方法,其特征在于,包括:
S1、获取设定区域中的图片,所述图片中包含表格;
S2、对所述图片进行识别,得到所述表格对应的第一识别结果;
S3、如果接收到表格信息提取指令,则从所述第一识别结果中提取与所述表格信息提取指令对应的表格内容。


2.根据权利要求1所述的方法,其特征在于,步骤S2,具体包括:
S21、对所述图片进行光学字符识别OCR识别,得到表格数组,所述表格数组中存储有各表格的行列信息;
S22、对所述表格数组进行解析,得到所述各表格对应的第一识别结果,该第一识别结果包括各个表格在所述图片中的索引序号,以及各表格中各个单元格的行列索引和单元格内容。


3.根据权利要求2所述的方法,其特征在于:
所述图片的识别结果中还包括对非表格内容对应的第二识别结果;
所述表格信息提取指令包括全部表格信息提取指令;所述全部信息提取指令包括全部图片内容提取子指令和所有表格提取子指令;
相应的,步骤S3,具体包括:
S31、如果接收到所有表格提取子指令,则从所述第一识别结果中提取所有表格内容;和/或,
S32、如果接收到全部图片内容提取子指令,则从所述第一识别结果中提取所有表格内容,并提取所述第二识别结果的内容。


4.根据权利要求2所述的方法,其特征在于,所述表格信息提取指令包括部分表格信息提取指令;所述部分表格信息提取指令包括提取类型和待提取内容对应的位置信息;
相应的,步骤S3,具体包括:
S31、如果接收到所述部分表格信息提取指令,则按照所述提取类型,从所述第一识别结果中提取所述位置信息对应的表格内容;
其中,所述提取类型包括区域提取、整行提取、整列提取和单元格提取。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
S32、如果接收到非表格文字提取指令,则从图片非表格内容对应的第二识别结果中提取所述...

【专利技术属性】
技术研发人员:胡一川汪冠春褚瑞李玮王瑞丰
申请(专利权)人:北京来也网络科技有限公司北京奔影网络科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1