一种结构化数据提取方法和系统技术方案

技术编号:39731802 阅读:7 留言:0更新日期:2023-12-17 23:34
本发明专利技术涉及一种结构化数据提取方法和系统,包括:获取源文件;对源文件进行识别,确定源文件的类型;若源文件为非扫描版

【技术实现步骤摘要】
一种结构化数据提取方法和系统


[0001]本专利技术涉及数据处理的
,更具体地说,涉及一种结构化数据提取方法和系统


技术介绍

[0002]核电厂在设计

建造

生产运行过程中产生了大量的文件,文件常以
PDF、
图片方式呈现,文件的业务类型也很多,有些是设计文件,有些是采购文件,有些是运行维修文件,设计文件也有很多种类型,比如管道等轴图

设备装配图

备品备件清单

系统设计手册等,多达上千种,每种记录了不同的内容,也有不同的表达方式,有些是纯文本,有些是纯图纸,有些是文本

图纸

表格的组合

[0003]随着数字化转型,用户对结构化数据的需求范围和需求量越来越大,需要把非结构化数据转换成结构化数据,将
PDF、
图片中的文字

数字

字母提取出来,并按一定的规则进行排版,方便做查询统计,或用于业务系统
。PDF
作为企业主要的文档发布格式,针对该类型文件提取,通常有两种方式:第一种:用户将
PDF
文件转换为
WORD
格式,或者采用开源的
PDF
提取组件实现
PDF
内容的提取,但提取的内容需要用户自动对表格

图片

文本进行梳理,且每次对不同文档中同一属性内容的不同描述需要人工进行对方和统一,并且对提取的内容进行筛查,选择具有价值的数据,然后再通过人工去判断该文档类型以及所关联设备信息,实现提取结果的归档

第二种:对于
PDF
图纸数据的结构化提取,采用
OCR
技术实现文档数据的提取,用户根据
OCR
提取的结果提取文档中的表格和文字,然后自行对表格和文字信息进行梳理,自行辨别图纸部件清单和表头位置,提取图纸关键信息,甚至用户需要在图纸大量文字内容中查找目标内容的位置,以便进行信息识别

[0004]然而,第一种方法中很
PDF
是扫描版的,且存在很多图纸,无法转换为
WORD
,导致内容失真;而且需要用户进行核对筛选,人工成本高

第二种方法中,直接从整个图纸区域中查找表格区域,提取的速度和准确度低,另外,用户需要自行去辨别部件清单

图纸表头以及其他干扰性表格的位置,提取图纸关键信息,由于图纸尺寸大,且图纸内容没有严格的行列顺序概率,因此,在图纸中识别查找指定信息耗时耗力


技术实现思路

[0005]本专利技术要解决的技术问题在于,提供一种结构化数据提取方法和系统

[0006]本专利技术解决其技术问题所采用的技术方案是:构造一种结构化数据提取方法,包括以下步骤:
[0007]获取源文件;
[0008]对所述源文件进行识别,确定所述源文件的类型;所述源文件的类型包括:非扫描版
PDF
文件,扫描版
PDF
文件

图纸版
PDF
文件;
[0009]若所述源文件为非扫描版
PDF
文件,则采用按页处理的方式对所述非扫描版
PDF
文件进行数据提取,获得所述非扫描版
PDF
文件的结构化数据;
[0010]若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术的方式对所述扫描版
PDF
文件进行数据提取,获得所述扫描版
PDF
文件的结构化数据;
[0011]若所述源文件为图纸版
PDF
文件,则采用区域定位和解析的方式对所述图纸版
PDF
文件进行数据提取,获得所述图纸版
PDF
文件的结构化数据

[0012]在本专利技术所述的结构化数据提取方法中,所述若所述源文件为非扫描版
PDF
文件,则采用按页处理的方式对所述非扫描版
PDF
文件进行数据提取,获得所述非扫描版
PDF
文件的结构化数据包括:
[0013]若所述源文件为非扫描版
PDF
文件,则对所述非扫描版
PDF
文件按页解析,获得所述非扫描版
PDF
文件的源数据;
[0014]基于所述非扫描版
PDF
文件的源数据进行模板配置,获得所述非扫描版
PDF
文件的提取模板;
[0015]根据所述非扫描版
PDF
文件的提取模板对所述非扫描版
PDF
文件的源数据进行数据提取,获得所述非扫描版
PDF
文件的结构化数据

[0016]在本专利技术所述的结构化数据提取方法中,所述非扫描版
PDF
文件的源数据包括:文本信息

表格信息

图片信息中的任意一种或者多种;
[0017]所述根据所述非扫描版
PDF
文件的提取模板对所述非扫描版
PDF
文件的源数据进行数据提取,获得所述扫描版
PDF
文件的结构化数据包括:
[0018]若源数据为文本信息,则采用正则匹配的方法并根据所述非扫描版
PDF
文件的提取模板对所述文本信息进行匹配提取,获得所述非扫描版
PDF
文件的文本数据;
[0019]若源数据为表格信息,则采用单元格定位的方法并根据所述非扫描版
PDF
文件的提取模板对所述表格信息进行表格定位,获得所述非扫描版
PDF
文件的表格数据;
[0020]若源数据为图片信息,则采用文件流的方法并根据所述非扫描版
PDF
文件的提取模板对所述图片信息进行图片处理,获得所述非扫描版
PDF
文件的图片数据;
[0021]对所述文件数据

表格数据

图片数据中的任意一种或者多种进行整合,获得所述非扫描版
PDF
文件的结构化数据

[0022]在本专利技术所述的结构化数据提取方法中,所述若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术的方式对所述扫描版
PDF
文件进行数据提取,获得所述扫描版
PDF
文件的结构化数据包括:
[0023]若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术对所述扫描版
PDF
文件进行识别,获得所述扫描版
PDF
文件的源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种结构化数据提取方法,其特征在于,包括以下步骤:获取源文件;对所述源文件进行识别,确定所述源文件的类型;所述源文件的类型包括:非扫描版
PDF
文件,扫描版
PDF
文件

图纸版
PDF
文件;若所述源文件为非扫描版
PDF
文件,则采用按页处理的方式对所述非扫描版
PDF
文件进行数据提取,获得所述非扫描版
PDF
文件的结构化数据;若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术的方式对所述扫描版
PDF
文件进行数据提取,获得所述扫描版
PDF
文件的结构化数据;若所述源文件为图纸版
PDF
文件,则采用区域定位和解析的方式对所述图纸版
PDF
文件进行数据提取,获得所述图纸版
PDF
文件的结构化数据
。2.
根据权利要求1所述的结构化数据提取方法,其特征在于,所述若所述源文件为非扫描版
PDF
文件,则采用按页处理的方式对所述非扫描版
PDF
文件进行数据提取,获得所述非扫描版
PDF
文件的结构化数据包括:若所述源文件为非扫描版
PDF
文件,则对所述非扫描版
PDF
文件按页解析,获得所述非扫描版
PDF
文件的源数据;基于所述非扫描版
PDF
文件的源数据进行模板配置,获得所述非扫描版
PDF
文件的提取模板;根据所述非扫描版
PDF
文件的提取模板对所述非扫描版
PDF
文件的源数据进行数据提取,获得所述非扫描版
PDF
文件的结构化数据
。3.
根据权利要求2所述的结构化数据提取方法,其特征在于,所述非扫描版
PDF
文件的源数据包括:文本信息

表格信息

图片信息中的任意一种或者多种;所述根据所述非扫描版
PDF
文件的提取模板对所述非扫描版
PDF
文件的源数据进行数据提取,获得所述扫描版
PDF
文件的结构化数据包括:若源数据为文本信息,则采用正则匹配的方法并根据所述非扫描版
PDF
文件的提取模板对所述文本信息进行匹配提取,获得所述非扫描版
PDF
文件的文本数据;若源数据为表格信息,则采用单元格定位的方法并根据所述非扫描版
PDF
文件的提取模板对所述表格信息进行表格定位,获得所述非扫描版
PDF
文件的表格数据;若源数据为图片信息,则采用文件流的方法并根据所述非扫描版
PDF
文件的提取模板对所述图片信息进行图片处理,获得所述非扫描版
PDF
文件的图片数据;对所述文本数据

表格数据

图片数据中的任意一种或者多种进行整合,获得所述非扫描版
PDF
文件的结构化数据
。4.
根据权利要求2所述的结构化数据提取方法,其特征在于,所述若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术的方式对所述扫描版
PDF
文件进行数据提取,获得所述扫描版
PDF
文件的结构化数据包括:若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术对所述扫描版
PDF
文件进行识别,获得所述扫描版
PDF
文件的源数据;基于所述扫描版
PDF
文件的源数据进行模板配置,获得所述扫描版
PDF
文件的提取模板;根据所述扫描版
PDF
文件的提取模板对所述扫描版
PDF
文件的源数据进行数据提取,获
得所述扫描版
PDF
文件的结构化数据
。5.
根据权利要求4所述的结构化数据提取方法,其特征在于,所述扫描版
PDF
文件的源数据包括:文本信息

表格信息和图片信息中的任意一种或者多种;所述若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术对所述扫描版
PDF
文件进行识别,获得所述扫描版
PDF
文件的源数据包括:若所述源文件为扫描版
PDF

【专利技术属性】
技术研发人员:杜丽琼汪鹏郭景任司恒远彭锦王云福雷玮剑
申请(专利权)人:中广核工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1