一种PDF文件的信息抽取方法及装置制造方法及图纸

技术编号：15822615 阅读：49 留言：0更新日期：2017-07-15 04:51

本发明专利技术涉及信息处理领域，尤其涉及一种PDF文件的信息抽取方法及装置，该方法为，针对PDF文件，分别将每一页中的信息生成相应的树形结构；分别统计每一页相应的树形结构中每一个节点的信息，从每一页中识别并抽取标题、正文、图表标题和图表结尾；进行汇总，对标题进行等级划分，并根据图表标题和图表结尾对图表进行抽取，分别将正文、图表映射到相应的标题和图表标题中，最终生成PDF文件的结构化数据，这样，可以对PDF文件中的标题、正文、图表等进行结构化抽取，进行精细解析和对图表信息的有效抽取，为实现行业研报垂直领域的搜索、信息精确定位及内容挖掘提供数据支持，极大的简化了用户分析研报内容的时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种PDF文件的信息抽取方法及装置
本专利技术涉及信息处理领域，尤其涉及一种PDF文件的信息抽取方法及装置。
技术介绍
为了方便行业分析师从众多行业研报中检索到想要的行业领域报告内容及从大量研报内容中挖掘出质量最优、最能代表行业分析现状的内容片断，需要对行业研报中的内容进行精细的结构化，识别每个标题所属的父子标题，内容片断，图表内容等信息并将其有机组织起来。现有技术中，针对行业研报的PDF文件的信息抽取，都主要是针对其中的文本数据进行处理，没有较好的可以解析PDF文件中图片和表格的方法，特别针对行业研报的pdf文件，目前还未有对其进行精细解析和图表数据抽取的解决方案。
技术实现思路
本专利技术实施例提供一种PDF文件的信息抽取方法及装置，以解决现有技术中不能对PDF文件的信息内容进行精细解析和对图表信息的有效抽取的问题。本专利技术实施例提供的具体技术方案如下：一种PDF文件的信息抽取方法，包括：针对PDF文件，分别获取所述PDF文件的每一页中的信息，并根据信息的类型，分别将每一页中的信息生成相应的树形结构；针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个...
一种PDF文件的信息抽取方法及装置

【技术保护点】
一种PDF文件的信息抽取方法，其特征在于，包括：针对PDF文件，分别获取所述PDF文件的每一页中的信息，并根据信息的类型，分别将每一页中的信息生成相应的树形结构；针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，并根据预设规则，将图标标题和图标结尾进行配对；汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾，根据标题的高度和样式，对标题进行等级划分，并根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，以及分别将正文、图表映射到相应的标题和...

【技术特征摘要】
1.一种PDF文件的信息抽取方法，其特征在于，包括：针对PDF文件，分别获取所述PDF文件的每一页中的信息，并根据信息的类型，分别将每一页中的信息生成相应的树形结构；针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，并根据预设规则，将图标标题和图标结尾进行配对；汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾，根据标题的高度和样式，对标题进行等级划分，并根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，以及分别将正文、图表映射到相应的标题和图表标题中，获得PDF文件的汇总结果；根据PDF文件的汇总结果，生成所述PDF文件的结构化数据。2.如权利要求1所述的方法，其特征在于，进一步包括：获取PDF文件，并针对所述PDF文件按页分解，分别生成每一页对应的新的PDF文件；分别获取每一页对应的新的PDF文件的宽度和高度；按照每一页对应的新的PDF文件的宽度和高度，分别将每一页对应的新的PDF文件放大预设倍数后，转换成相应的图片。3.如权利要求1或2所述的方法，其特征在于，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，具体包括：分别统计每一页相应的树形结构中的行文本节点的位置和高度，确定每一页中正文的位置和高度；分别统计每一页相应的树形结构在预设范围内的节点的信息，并将每一页中的预设范围内的信息进行对比，根据每一页中的预设范围内的信息的相似度，确定每一页的头部和尾部的位置；根据每一页的头部和尾部的位置、每一页中正文的位置，分别从每一页中识别并抽取包含正文的主体文本；从抽取的包含正文的主体文本中识别出标题，并将正文划分成各个段落；根据预设的正则表达式，分别从每一页中识别并抽取图表标题和图标结尾。4.如权利要求3所述的方法，其特征在于，分别统计每一页相应的树形结构中的行文本节点的位置和高度，确定每一页中正文的位置和高度，具体包括：分别统计每一页相应的树形结构中的行文本节点的X轴偏移量和高度，将相同X轴偏移量和高度的行文本数量最大，对应的X轴偏移量和高度作为每一页中正文的X轴偏移量和高度；其中，位置至少包括相对于预设的坐标原点的X轴偏移量。5.如权利要求3所述的方法，其特征在于，从抽取的包含正文的主体文本中识别出标题，并将正文划分成各个段落，具体包括：根据高度、宽度、上下文本的距离是否有标题的标识，将符合预设策略的主体正文作为识别出的标题标题；其中，预设策略为以下一种或任意组合：高度大于正文高度+1且小于30、与上一个文本距离大于9且与下一个文本距离大于9且有标题标识、与上一个文本距离大于10且高度为正文高度且宽度小于下一行文本宽度的60％；根据换行符节点的信息、上下文本距离和图表标题，将正文划分成各个段落；针对识别并抽取出的标题和段落，根据设定的条件，将误识别的标题进行过滤。6.如权利要求1、2、4或5所述的方法，其特征在于，根据标题的高度和样式，对标题进行等级划分，具体包括：根据标题的样式，将标题的样式相同的标题归为一个类别，获得归于各个类别的标题；根据标题的高度，按照标题的高度由大到小的顺序，确定各个类别的标题之间的等级关系，对标题进行等级划分。7.如权利要求2所述的方法，其特征在于，根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，具体包括：根据配对的图表标题和图表结尾的位置，确定图表是否跨页，若是，则分别计算跨页的图表在各个相应的页中的位置，否则，则分别计算每一页中的图表的位置；根据图表的位置，分别从每一页相应的图片中识别并抽取图表，并针对跨页的图表进行拼接，获得最终的图表。8.如权利要求1所述的方法，其特征在于，进一步包括：根据实际需求，将所述PDF文件的结构化数据保存到相应的的数据库中。9.一种PDF文件的信息抽取装置，其特征在于，包括：页面解析单元，用于根据整体解析单元生成的树形结构，针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个...

【专利技术属性】
技术研发人员：兰任，马超，张道泉，赵继广，
申请(专利权)人：北京因果树网络科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人