基于PDF文件的段落识别方法、装置及相关介质制造方法及图纸

技术编号:43961504 阅读:16 留言:0更新日期:2025-01-07 21:46
本发明专利技术公开了基于PDF文件的段落识别方法、装置及相关介质,该方法包括从PDF文件中提取所有文字对象并按顺序存储至文字容器;遍历文字容器的文字对象得到基线信息;判断当前基线信息与上一个基线信息之间的差距是否满足组合条件,若满足则判定为同一行;将同一行的文字对象组合为行对象并存储至行容器;遍历行容器的行对象的基础参数;根据基础参数计算得到组合参数,并将行对象、基础参数和组合参数传入预测模型预测得到段落;遍历段落中的文字位置并进行拼接,得到段落位置。本发明专利技术将获取到的行对象、基础参数和组合参数传入预测模型进行预测,得到段落,再将段落中的文字位置进行拼接得到最终的段落位置,如此,大大提高开发人员的工作效率。

【技术实现步骤摘要】

本专利技术涉及文件处理,特别涉及基于pdf文件的段落识别方法、装置及相关介质。


技术介绍

1、目前,市面上的pdf编辑器大多采用基于传统条件识别方法(如if...else...)来划分pdf文件中的段落。这种基于条件识别的段落划分技术对开发人员的逻辑思维能力要求较高,且其识别效果依赖于段落在文件中的位置排布,当段落的排布较为混乱时,会导致该技术的识别准确性大幅下降,容易出现错误划分,进而影响开发人员的工作效率。因此,亟需一种新的段落识别方案来提高开发人员的工作效率。


技术实现思路

1、本专利技术实施例提供了基于pdf文件的段落识别方法、装置及相关介质,旨在解决现有技术中的开发人员识别文件中段落的工作效率低下的问题。

2、第一方面,本专利技术实施例提供一种基于pdf文件的段落识别方法,包括:

3、加载pdf文件,并从所述pdf文件中提取所有文字对象,将所述文字对象按顺序存储至文字容器;

4、遍历所述文字容器中的所述文字对象,得到所有所述文字对象对应的基线信息;

5本文档来自技高网...

【技术保护点】

1.一种基于PDF文件的段落识别方法,其特征在于,包括:

2.根据权利要求1所述的基于PDF文件的段落识别方法,其特征在于,所述加载PDF文件,并从所述PDF文件中提取所有文字对象,将所述文字对象按顺序存储至文字容器,包括:

3.根据权利要求1所述的基于PDF文件的段落识别方法,其特征在于,所述判断当前所述文字对象的基线信息与上一个所述文字对象的基线信息之间的差距是否满足组合条件,若满足,则判定为同一行,包括:

4.根据权利要求1所述的基于PDF文件的段落识别方法,其特征在于,所述将同一行的所述文字对象组合为行对象,并将所述行对象存储至行容器,直至所有...

【技术特征摘要】

1.一种基于pdf文件的段落识别方法,其特征在于,包括:

2.根据权利要求1所述的基于pdf文件的段落识别方法,其特征在于,所述加载pdf文件,并从所述pdf文件中提取所有文字对象,将所述文字对象按顺序存储至文字容器,包括:

3.根据权利要求1所述的基于pdf文件的段落识别方法,其特征在于,所述判断当前所述文字对象的基线信息与上一个所述文字对象的基线信息之间的差距是否满足组合条件,若满足,则判定为同一行,包括:

4.根据权利要求1所述的基于pdf文件的段落识别方法,其特征在于,所述将同一行的所述文字对象组合为行对象,并将所述行对象存储至行容器,直至所有所述文字对象判断完毕,包括:

5.根据权利要求1所述的基于pdf文件的段落识别方法,其特征在于,所述遍历所述行容器中的所述行对象,得到所有所述行对象对应的基础参...

【专利技术属性】
技术研发人员:龙逸翔
申请(专利权)人:深圳锦牛科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1