一种将无标题PDF文件结构化的数据处理方法技术

技术编号：41420429 阅读：23 留言：0更新日期：2024-05-28 20:21

本发明专利技术提供一种将无标题PDF文件结构化的数据处理方法，涉及数据处理技术领域，包括：获取PDF文件中的原始文本数据，原始文本数据包括原始文本样式和原始坐标信息；利用过滤算法遍历原始文本数据，得到第一文本数据；根据原始文本样式将第一文本数据进行段落合并，得到第二文本数据；对第二文本数据按照文本样式进行数据划分，将数据量最大的文本样式作为目标样式；根据目标样式遍历查找第二文本数据中的段落标题，将第二文本数据按照段落标题和段落正文分别进行标记；将相邻两个段落标题之间的段落正文进行拼接，根据拼接后的内容输出得到结构化PDF文件。本发明专利技术能够将无标题样式的PDF文件解析为带有标题的结构化文本内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种将无标题pdf文件结构化的数据处理方法。

技术介绍

1、pdf(portable document format)是一种广泛使用的电子文档格式，它具有跨平台、跨应用程序和跨设备的特点，能够保持文档的原始外观和布局。然而，pdf文件的内容并不一定是结构化的，有些pdf文件可能没有明确的标题层级，只是根据字体大小、粗细、颜色等视觉特征来区分不同的段落。这样的pdf文件对于人类阅读者来说可能没有太大的影响，因为人类可以通过文本样式和字体属性区分章节、标题、正文、页码。但是对于计算机程序来说，就难以识别和提取出文档中的逻辑结构和完整的段落语义信息。

2、中国申请号为202010128312.6的专利技术专利公开了一种pdf文档解析方法，该方法包括：识别pdf文档中的结构化元素；分别提取各结构化元素的位置坐标和/或单元特征；基于各结构化元素的位置坐标和/或单元特征生成至少一个待解析元素；获取各待解析元素的解析结果；其中，结构化元素包括：文本、图片、及表格。该现有技术对于pdf文档中的结构化元素的识别...

【技术保护点】

1.一种将无标题PDF文件结构化的数据处理方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种将无标题PDF文件结构化的数据处理方法，其特征在于，步骤S1包括：

3.如权利要求2所述的一种将无标题PDF文件结构化的数据处理方法，其特征在于，步骤S2包括：

4.如权利要求2所述的一种将无标题PDF文件结构化的数据处理方法，其特征在于，步骤S3包括：

5.如权利要求4所述的一种将无标题PDF文件结构化的数据处理方法，其特征在于，步骤S32中，采用Merge函数处理每个页面，得到第二文本数据，包括：

6.如权利要求5所述的一种...

【技术特征摘要】

1.一种将无标题pdf文件结构化的数据处理方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种将无标题pdf文件结构化的数据处理方法，其特征在于，步骤s1包括：

3.如权利要求2所述的一种将无标题pdf文件结构化的数据处理方法，其特征在于，步骤s2包括：

4.如权利要求2所述的一种将无标题pdf文件结构化的数据处理方法，其特征在于，步骤s3包括：

5.如权利要求4所述的一种将无标题pdf文件结构化的数据处理方法，其特征在于，步骤s32中，采用merge函数处理每个页面，得到第二文本数据，包括：

6...

【专利技术属性】
技术研发人员：周成，范亮，胡亮，
申请(专利权)人：湖北鼎森智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人