一种将无标题PDF文件结构化的数据处理方法技术

技术编号:41420429 阅读:23 留言:0更新日期:2024-05-28 20:21
本发明专利技术提供一种将无标题PDF文件结构化的数据处理方法,涉及数据处理技术领域,包括:获取PDF文件中的原始文本数据,原始文本数据包括原始文本样式和原始坐标信息;利用过滤算法遍历原始文本数据,得到第一文本数据;根据原始文本样式将第一文本数据进行段落合并,得到第二文本数据;对第二文本数据按照文本样式进行数据划分,将数据量最大的文本样式作为目标样式;根据目标样式遍历查找第二文本数据中的段落标题,将第二文本数据按照段落标题和段落正文分别进行标记;将相邻两个段落标题之间的段落正文进行拼接,根据拼接后的内容输出得到结构化PDF文件。本发明专利技术能够将无标题样式的PDF文件解析为带有标题的结构化文本内容。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种将无标题pdf文件结构化的数据处理方法。


技术介绍

1、pdf(portable document format)是一种广泛使用的电子文档格式,它具有跨平台、跨应用程序和跨设备的特点,能够保持文档的原始外观和布局。然而,pdf文件的内容并不一定是结构化的,有些pdf文件可能没有明确的标题层级,只是根据字体大小、粗细、颜色等视觉特征来区分不同的段落。这样的pdf文件对于人类阅读者来说可能没有太大的影响,因为人类可以通过文本样式和字体属性区分章节、标题、正文、页码。但是对于计算机程序来说,就难以识别和提取出文档中的逻辑结构和完整的段落语义信息。

2、中国申请号为202010128312.6的专利技术专利公开了一种pdf文档解析方法,该方法包括:识别pdf文档中的结构化元素;分别提取各结构化元素的位置坐标和/或单元特征;基于各结构化元素的位置坐标和/或单元特征生成至少一个待解析元素;获取各待解析元素的解析结果;其中,结构化元素包括:文本、图片、及表格。该现有技术对于pdf文档中的结构化元素的识别和提取不够准确或完整本文档来自技高网...

【技术保护点】

1.一种将无标题PDF文件结构化的数据处理方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种将无标题PDF文件结构化的数据处理方法,其特征在于,步骤S1包括:

3.如权利要求2所述的一种将无标题PDF文件结构化的数据处理方法,其特征在于,步骤S2包括:

4.如权利要求2所述的一种将无标题PDF文件结构化的数据处理方法,其特征在于,步骤S3包括:

5.如权利要求4所述的一种将无标题PDF文件结构化的数据处理方法,其特征在于,步骤S32中,采用Merge函数处理每个页面,得到第二文本数据,包括:

6.如权利要求5所述的一种...

【技术特征摘要】

1.一种将无标题pdf文件结构化的数据处理方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种将无标题pdf文件结构化的数据处理方法,其特征在于,步骤s1包括:

3.如权利要求2所述的一种将无标题pdf文件结构化的数据处理方法,其特征在于,步骤s2包括:

4.如权利要求2所述的一种将无标题pdf文件结构化的数据处理方法,其特征在于,步骤s3包括:

5.如权利要求4所述的一种将无标题pdf文件结构化的数据处理方法,其特征在于,步骤s32中,采用merge函数处理每个页面,得到第二文本数据,包括:

6...

【专利技术属性】
技术研发人员:周成范亮胡亮
申请(专利权)人:湖北鼎森智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1