【技术实现步骤摘要】
信息提取方法、装置、电子设备和介质
[0001]本申请涉及深度学习
,尤其涉及一种信息提取方法
、
装置
、
电子设备和介质
。
技术介绍
[0002]由于便携式文档格式
(Portable Document Format
,简称
PDF)
文件内部没有包含其显示版面上的物理结构和内容的逻辑结构,通过程序解析
PDF
文件,实现提取
PDF
文件中表格信息的方式比较困难,因此,如何提取
PDF
文件中表格信息,并保证
PDF
文件中表格信息的准确性,已成为亟待解决的问题
。
技术实现思路
[0003]本申请的目的旨在至少在一定程度上解决上述技术中的技术问题之一
。
[0004]本申请第一方面提供了一种信息提取方法,包括:获取待处理的便携式文档格式
PDF
文件,将所述待处理的
PDF
文件的每一页转换为图像文件;对 ...
【技术保护点】
【技术特征摘要】
1.
一种信息提取方法,其特征在于,所述方法包括:获取待处理的便携式文档格式
PDF
文件,将所述待处理的
PDF
文件的每一页转换为图像文件;对所述图像文件逐页进行表格识别,判断当前进行表格识别的目标图像文件中是否存在表格;响应于所述目标图像文件中存在表格,获取所述目标图像文件中表格的属性特征,根据所述表格的属性特征,创建待编辑表格;对所述目标图像文件进行信息提取,获取所述目标图像文件的文本信息;根据所述文本信息,对所述待编辑表格进行填充,得到目标表格
。2.
根据权利要求1所述的方法,其特征在于,所述将所述待处理的
PDF
文件的每一页转换为图像文件,包括:对所述待处理的
PDF
文件进行解析,并通过格式转换函数,将所述待处理的
PDF
文件的每一页转换为图像文件
。3.
根据权利要求1所述的方法,其特征在于,所述对所述图像文件逐页进行表格识别之前,还包括:对所述图像文件进行预处理,对预处理后的图像文件逐页进行表格识别,其中,所述预处理包括二值化处理
、
滤波处理
、
形态学处理
。4.
根据权利要求3所述的方法,其特征在于,所述对所述图像文件逐页进行表格识别,判断当前进行表格识别的目标图像文件中是否存在表格,包括:通过角点检测算法,对所述预处理后的图像文件中的顶点进行检测,获取所述目标图像文件中的顶点;通过直线检测算法,对所述预处理后的图像文件中的直线进行检测,获取所述目标图像文件中的直线段;根据所述顶点和所述直线段,判断所述目标图像文件中是否存在表格
。5.
根据权利要求4所述的方法,其特征在于,所述获取所述目标图像文件中表格的属性特征,包括:获取所述目标图像文件中的直线段与所述表格的空间位置关系;根据所述空间位置关系,获取所述目标图像文件中表格的属性特征,其...
【专利技术属性】
技术研发人员:袁建,郭磊,贾家琛,郑子辰,邸智,
申请(专利权)人:中国华能集团清洁能源技术研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。