【技术实现步骤摘要】
一种文本信息读取方法、装置及终端
[0001]本专利技术属于数据处理
,具体涉及一种文本信息读取方法、装置及终端。
技术介绍
[0002]PDF(Portable Document Format,便携文件格式)是一种由Adobe公司开发的一种电子文档格式,其具有与操作系统平台无关性的特点。PDF属于版式文档,页面之间相对独立,从而可以精确描述文档布局并展现文档版面。在简历解析领域,想要对简历进行解析,首先要获取到简历中的文本信息,但是PDF格式文档不记录文档的逻辑结构,使用传统的python工具包按照从上至下由左至右的方式进行每一行的读取方法,导致得到的文本信息是乱序的,无法直接得到包含上下文语意的序列文本信息。这种情况在特殊形式的PDF文件的文本信息读取时非常普遍,尤其是形似表格PDF或者分栏PDF的文本信息读取时,得到序列文本信息常常是错乱无效的。
技术实现思路
[0003]有鉴于此,本专利技术的目的在于提供一种文本信息读取方法、装置及终端,以解决采用现有的PDF文件的文本信息读取方案无法获得有效的 ...
【技术保护点】
【技术特征摘要】
1.一种文本信息读取方法,其特征在于,包括:获取PDF格式的文本信息;其中,所述文本信息包含PDF页面中的各个字符;根据预设处理程序对所述文本信息进行预处理,得到每个字符的字符位置信息和待展示文本信息,其中,所述待展示文本信息为预处理后的所述各个字符组成的字符串,所述字符位置信息用于标记所述各个字符距离所述PDF页面上边界和左边界的距离;根据所述字符位置信息对所述待展示文本信息进行分析,得到分析结果;根据所述分析结果排序并展示所述待展示文本信息。2.根据权利要求1所述的方法,其特征在于,所述预设处理程序包括以下至少一项:水印处理程序、文本位置修正程序、叠字处理程序和特殊字符处理程序,所述根据预设处理程序对所述文本信息进行预处理,包括:使用所述水印处理程序去除所述文本信息中的水印;和/或使用所述文本位置修正程序修正所述文本信息中各个字符的字符位置;和/或使用所述叠字处理程序去除所述文本信息的叠字;和/或使用所述特殊字符处理程序去除所述文本信息的特殊字符。3.根据权利要求2所述的方法,其特征在于,使用所述水印处理程序去除所述文本信息中的水印,包括:遍历所述字符串,判断所述字符串中是否包含水印关键字;若所述字符串中包含所述水印关键字,则删除所述字符串。4.根据权利要求3所述的方法,其特征在于,所述字符位置信息包括:所述各个字符上下两端分别距离PDF页面上边界的第一距离信息;以及使用所述文本位置修正程序修正所述文本信息中各个字符的字符位置,包括:根据所述字符串中连续字符的所述第一距离信息,从所述字符串中确定与PDF页面上边界相交的字符集合;调整所述字符集合中每个字符的所述第一距离信息为统一值。5.根据权利要求4所述的方法,其特征在于,所述字符的位置信息包括:所述各个字符左右两侧分别距离PDF页面左边界的第二距离信息,使用所述叠字处理程序去除所述文本信息的叠字,包括:根据所述字符串中连续两个字符的所述第二距离信息和文本信息,判断是否所述...
【专利技术属性】
技术研发人员:王晓波,李文哲,张金麒,
申请(专利权)人:北京贪心科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。