【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种将无标题pdf文件结构化的数据处理方法。
技术介绍
1、pdf(portable document format)是一种广泛使用的电子文档格式,它具有跨平台、跨应用程序和跨设备的特点,能够保持文档的原始外观和布局。然而,pdf文件的内容并不一定是结构化的,有些pdf文件可能没有明确的标题层级,只是根据字体大小、粗细、颜色等视觉特征来区分不同的段落。这样的pdf文件对于人类阅读者来说可能没有太大的影响,因为人类可以通过文本样式和字体属性区分章节、标题、正文、页码。但是对于计算机程序来说,就难以识别和提取出文档中的逻辑结构和完整的段落语义信息。
2、中国申请号为202010128312.6的专利技术专利公开了一种pdf文档解析方法,该方法包括:识别pdf文档中的结构化元素;分别提取各结构化元素的位置坐标和/或单元特征;基于各结构化元素的位置坐标和/或单元特征生成至少一个待解析元素;获取各待解析元素的解析结果;其中,结构化元素包括:文本、图片、及表格。该现有技术对于pdf文档中的结构化元素的识别
...【技术保护点】
1.一种将无标题PDF文件结构化的数据处理方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种将无标题PDF文件结构化的数据处理方法,其特征在于,步骤S1包括:
3.如权利要求2所述的一种将无标题PDF文件结构化的数据处理方法,其特征在于,步骤S2包括:
4.如权利要求2所述的一种将无标题PDF文件结构化的数据处理方法,其特征在于,步骤S3包括:
5.如权利要求4所述的一种将无标题PDF文件结构化的数据处理方法,其特征在于,步骤S32中,采用Merge函数处理每个页面,得到第二文本数据,包括:
6.如
...【技术特征摘要】
1.一种将无标题pdf文件结构化的数据处理方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种将无标题pdf文件结构化的数据处理方法,其特征在于,步骤s1包括:
3.如权利要求2所述的一种将无标题pdf文件结构化的数据处理方法,其特征在于,步骤s2包括:
4.如权利要求2所述的一种将无标题pdf文件结构化的数据处理方法,其特征在于,步骤s3包括:
5.如权利要求4所述的一种将无标题pdf文件结构化的数据处理方法,其特征在于,步骤s32中,采用merge函数处理每个页面,得到第二文本数据,包括:
6...
【专利技术属性】
技术研发人员:周成,范亮,胡亮,
申请(专利权)人:湖北鼎森智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。