一种结构化数据提取方法和系统技术方案

技术编号：39731802 阅读：23 留言：0更新日期：2023-12-17 23:34

本发明专利技术涉及一种结构化数据提取方法和系统，包括：获取源文件；对源文件进行识别，确定源文件的类型；若源文件为非扫描版

全部详细技术资料下载

【技术实现步骤摘要】
一种结构化数据提取方法和系统

[0001]本专利技术涉及数据处理的
，更具体地说，涉及一种结构化数据提取方法和系统
。

技术介绍

[0002]核电厂在设计
、
建造
、
生产运行过程中产生了大量的文件，文件常以
PDF、
图片方式呈现，文件的业务类型也很多，有些是设计文件，有些是采购文件，有些是运行维修文件，设计文件也有很多种类型，比如管道等轴图
、
设备装配图
、
备品备件清单
、
系统设计手册等，多达上千种，每种记录了不同的内容，也有不同的表达方式，有些是纯文本，有些是纯图纸，有些是文本
、
图纸
、
表格的组合
。
[0003]随着数字化转型，用户对结构化数据的需求范围和需求量越来越大，需要把非结构化数据转换成结构化数据，将
PDF、
图片中的文字
、
数字
、
字母提取出来，并按一定的规则进行排版，方便做查询统计，

【技术保护点】

【技术特征摘要】
1.
一种结构化数据提取方法，其特征在于，包括以下步骤：获取源文件；对所述源文件进行识别，确定所述源文件的类型；所述源文件的类型包括：非扫描版
PDF
文件，扫描版
PDF
文件
、
图纸版
PDF
文件；若所述源文件为非扫描版
PDF
文件，则采用按页处理的方式对所述非扫描版
PDF
文件进行数据提取，获得所述非扫描版
PDF
文件的结构化数据；若所述源文件为扫描版
PDF
文件，则采用光学字符识别技术的方式对所述扫描版
PDF
文件进行数据提取，获得所述扫描版
PDF
文件的结构化数据；若所述源文件为图纸版
PDF
文件，则采用区域定位和解析的方式对所述图纸版
PDF
文件进行数据提取，获得所述图纸版
PDF
文件的结构化数据
。2.
根据权利要求1所述的结构化数据提取方法，其特征在于，所述若所述源文件为非扫描版
PDF
文件，则采用按页处理的方式对所述非扫描版
PDF
文件进行数据提取，获得所述非扫描版
PDF
文件的结构化数据包括：若所述源文件为非扫描版
PDF
文件，则对所述非扫描版
PDF
文件按页解析，获得所述非扫描版
PDF
文件的源数据；基于所述非扫描版
PDF
文件的源数据进行模板配置，获得所述非扫描版
PDF
文件的提取模板；根据所述非扫描版
PDF
文件的提取模板对所述非扫描版
PDF
文件的源数据进行数据提取，获得所述非扫描版
PDF
文件的结构化数据
。3.
根据权利要求2所述的结构化数据提取方法，其特征在于，所述非扫描版
PDF
文件的源数据包括：文本信息
、
表格信息
、
图片信息中的任意一种或者多种；所述根据所述非扫描版
PDF
文件的提取模板对所述非扫描版
PDF
文件的源数据进行数据提取，获得所述扫描版
PDF
文件的结构化数据包括：若源数据为文本信息，则采用正则匹配的方法并根据所述非扫描版
PDF
文件的提取模板对所述文本信息进行匹配提取，获得所述非扫描版
PDF
文件的文本数据；若源数据为表格信息，则采用单元格定位的方法并根据所述非扫描版
PDF
文件的提取模板对所述表格信息进行表格定位，获得所述非扫描版
PDF
文件的表格数据；若源数据为图片信息，则采用文件流的方法并根据所述非扫描版
PDF
文件的提取模板对所述图片信息进行图片处理，获得所述非扫描版
PDF
文件的图片数据；对所述文本数据
、
表格数据
、
图片数据中的任意一种或者多种进行整合，获得所述非扫描版
PDF
文件的结构化数据
。4.
根据权利要求2所述的结构化数据提取方法，其特征在于，所述若所述源文件为扫描版
PDF
文件，则采用光学字符识别技术的方式对所述扫描版
PDF
文件进行数据提取，获得所述扫描版
PDF
文件的结构化数据包括：若所述源文件为扫描版
PDF
文件，则采用光学字符识别技术对所述扫描版
PDF
文件进行识别，获得所述扫描版
PDF
文件的源数据；基于所述扫描版
PDF
文件的源数据进行模板配置，获得所述扫描版
PDF
文件的提取模板；根据所述扫描版
PDF
文件的提取模板对所述扫描版
PDF
文件的源数据进行数据提取，获
得所述扫描版
PDF
文件的结构化数据
。5.
根据权利要求4所述的结构化数据提取方法，其特征在于，所述扫描版
PDF
文件的源数据包括：文本信息
、
表格信息和图片信息中的任意一种或者多种；所述若所述源文件为扫描版
PDF
文件，则采用光学字符识别技术对所述扫描版
PDF
文件进行识别，获得所述扫描版
PDF
文件的源数据包括：若所述源文件为扫描版
PDF

【专利技术属性】
技术研发人员：杜丽琼，汪鹏，郭景任，司恒远，彭锦，王云福，雷玮剑，
申请(专利权)人：中广核工程有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人