【技术实现步骤摘要】
本专利技术涉及文件处理,特别涉及基于pdf文件的段落识别方法、装置及相关介质。
技术介绍
1、目前,市面上的pdf编辑器大多采用基于传统条件识别方法(如if...else...)来划分pdf文件中的段落。这种基于条件识别的段落划分技术对开发人员的逻辑思维能力要求较高,且其识别效果依赖于段落在文件中的位置排布,当段落的排布较为混乱时,会导致该技术的识别准确性大幅下降,容易出现错误划分,进而影响开发人员的工作效率。因此,亟需一种新的段落识别方案来提高开发人员的工作效率。
技术实现思路
1、本专利技术实施例提供了基于pdf文件的段落识别方法、装置及相关介质,旨在解决现有技术中的开发人员识别文件中段落的工作效率低下的问题。
2、第一方面,本专利技术实施例提供一种基于pdf文件的段落识别方法,包括:
3、加载pdf文件,并从所述pdf文件中提取所有文字对象,将所述文字对象按顺序存储至文字容器;
4、遍历所述文字容器中的所述文字对象,得到所有所述文字对象对应的基线信
5本文档来自技高网...
【技术保护点】
1.一种基于PDF文件的段落识别方法,其特征在于,包括:
2.根据权利要求1所述的基于PDF文件的段落识别方法,其特征在于,所述加载PDF文件,并从所述PDF文件中提取所有文字对象,将所述文字对象按顺序存储至文字容器,包括:
3.根据权利要求1所述的基于PDF文件的段落识别方法,其特征在于,所述判断当前所述文字对象的基线信息与上一个所述文字对象的基线信息之间的差距是否满足组合条件,若满足,则判定为同一行,包括:
4.根据权利要求1所述的基于PDF文件的段落识别方法,其特征在于,所述将同一行的所述文字对象组合为行对象,并将所述行对象存
...【技术特征摘要】
1.一种基于pdf文件的段落识别方法,其特征在于,包括:
2.根据权利要求1所述的基于pdf文件的段落识别方法,其特征在于,所述加载pdf文件,并从所述pdf文件中提取所有文字对象,将所述文字对象按顺序存储至文字容器,包括:
3.根据权利要求1所述的基于pdf文件的段落识别方法,其特征在于,所述判断当前所述文字对象的基线信息与上一个所述文字对象的基线信息之间的差距是否满足组合条件,若满足,则判定为同一行,包括:
4.根据权利要求1所述的基于pdf文件的段落识别方法,其特征在于,所述将同一行的所述文字对象组合为行对象,并将所述行对象存储至行容器,直至所有所述文字对象判断完毕,包括:
5.根据权利要求1所述的基于pdf文件的段落识别方法,其特征在于,所述遍历所述行容器中的所述行对象,得到所有所述行对象对应的基础参...
【专利技术属性】
技术研发人员:龙逸翔,
申请(专利权)人:深圳锦牛科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。