【技术实现步骤摘要】
一种结构化数据提取方法和系统
[0001]本专利技术涉及数据处理的
,更具体地说,涉及一种结构化数据提取方法和系统
。
技术介绍
[0002]核电厂在设计
、
建造
、
生产运行过程中产生了大量的文件,文件常以
PDF、
图片方式呈现,文件的业务类型也很多,有些是设计文件,有些是采购文件,有些是运行维修文件,设计文件也有很多种类型,比如管道等轴图
、
设备装配图
、
备品备件清单
、
系统设计手册等,多达上千种,每种记录了不同的内容,也有不同的表达方式,有些是纯文本,有些是纯图纸,有些是文本
、
图纸
、
表格的组合
。
[0003]随着数字化转型,用户对结构化数据的需求范围和需求量越来越大,需要把非结构化数据转换成结构化数据,将
PDF、
图片中的文字
、
数字
、
字母提取出来,并按一定的规则进行排版,方便做查询统计,或用于业务系统
。PDF
作为企业主要的文档发布格式,针对该类型文件提取,通常有两种方式:第一种:用户将
PDF
文件转换为
WORD
格式,或者采用开源的
PDF
提取组件实现
PDF
内容的提取,但提取的内容需要用户自动对表格
、
图片
、
文本进行梳理,且每次对不同文档中同一属性内 ...
【技术保护点】
【技术特征摘要】
1.
一种结构化数据提取方法,其特征在于,包括以下步骤:获取源文件;对所述源文件进行识别,确定所述源文件的类型;所述源文件的类型包括:非扫描版
PDF
文件,扫描版
PDF
文件
、
图纸版
PDF
文件;若所述源文件为非扫描版
PDF
文件,则采用按页处理的方式对所述非扫描版
PDF
文件进行数据提取,获得所述非扫描版
PDF
文件的结构化数据;若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术的方式对所述扫描版
PDF
文件进行数据提取,获得所述扫描版
PDF
文件的结构化数据;若所述源文件为图纸版
PDF
文件,则采用区域定位和解析的方式对所述图纸版
PDF
文件进行数据提取,获得所述图纸版
PDF
文件的结构化数据
。2.
根据权利要求1所述的结构化数据提取方法,其特征在于,所述若所述源文件为非扫描版
PDF
文件,则采用按页处理的方式对所述非扫描版
PDF
文件进行数据提取,获得所述非扫描版
PDF
文件的结构化数据包括:若所述源文件为非扫描版
PDF
文件,则对所述非扫描版
PDF
文件按页解析,获得所述非扫描版
PDF
文件的源数据;基于所述非扫描版
PDF
文件的源数据进行模板配置,获得所述非扫描版
PDF
文件的提取模板;根据所述非扫描版
PDF
文件的提取模板对所述非扫描版
PDF
文件的源数据进行数据提取,获得所述非扫描版
PDF
文件的结构化数据
。3.
根据权利要求2所述的结构化数据提取方法,其特征在于,所述非扫描版
PDF
文件的源数据包括:文本信息
、
表格信息
、
图片信息中的任意一种或者多种;所述根据所述非扫描版
PDF
文件的提取模板对所述非扫描版
PDF
文件的源数据进行数据提取,获得所述扫描版
PDF
文件的结构化数据包括:若源数据为文本信息,则采用正则匹配的方法并根据所述非扫描版
PDF
文件的提取模板对所述文本信息进行匹配提取,获得所述非扫描版
PDF
文件的文本数据;若源数据为表格信息,则采用单元格定位的方法并根据所述非扫描版
PDF
文件的提取模板对所述表格信息进行表格定位,获得所述非扫描版
PDF
文件的表格数据;若源数据为图片信息,则采用文件流的方法并根据所述非扫描版
PDF
文件的提取模板对所述图片信息进行图片处理,获得所述非扫描版
PDF
文件的图片数据;对所述文本数据
、
表格数据
、
图片数据中的任意一种或者多种进行整合,获得所述非扫描版
PDF
文件的结构化数据
。4.
根据权利要求2所述的结构化数据提取方法,其特征在于,所述若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术的方式对所述扫描版
PDF
文件进行数据提取,获得所述扫描版
PDF
文件的结构化数据包括:若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术对所述扫描版
PDF
文件进行识别,获得所述扫描版
PDF
文件的源数据;基于所述扫描版
PDF
文件的源数据进行模板配置,获得所述扫描版
PDF
文件的提取模板;根据所述扫描版
PDF
文件的提取模板对所述扫描版
PDF
文件的源数据进行数据提取,获
得所述扫描版
PDF
文件的结构化数据
。5.
根据权利要求4所述的结构化数据提取方法,其特征在于,所述扫描版
PDF
文件的源数据包括:文本信息
、
表格信息和图片信息中的任意一种或者多种;所述若所述源文件为扫描版
PDF
文件,则采用光学字符识别技术对所述扫描版
PDF
文件进行识别,获得所述扫描版
PDF
文件的源数据包括:若所述源文件为扫描版
PDF
【专利技术属性】
技术研发人员:杜丽琼,汪鹏,郭景任,司恒远,彭锦,王云福,雷玮剑,
申请(专利权)人:中广核工程有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。