【技术实现步骤摘要】
一种连续页版式文档结构化信息提取方法
本专利技术涉及版式文档信息提取领域,尤其涉及一种连续页版式文档结构化信息提取方法。
技术介绍
版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致的。版式文档主要应用于成文后文件的发布、传播和存档。常见的版式文档格式有PDF、CEBX、OFD等。版式文档格式定义了多个页面的版面呈现数据、各个页面内部对象(文字、图像、图形等)在版面内的呈现位置、颜色、字体字号等信息,从而使得解析器、阅读器能够逐页按版式来呈现文档内容,便于人的阅读。版式文档中存储的是非结构化的数据,没有记录文档的逻辑结构,没有段落、大纲、表格等元素,不利于信息再利用。因此需要对版式文档进行结构化处理,解析、提取文章的大纲信息、形成段落、提取表格和各种元数据信息等,便于信息的进一步利用。现实中,不同应用领域和应用目标的文档,其排版是不同的。如报纸,因为其版面较大,一个页面往往存在多篇文章,而文章也可能被分层多栏、多块,存在标题、图片绕排等情况,单篇文 ...
【技术保护点】
1.一种连续页版式文档的结构化方法,其特征是,包括以下步骤:步骤一、解析版式文档,逐页获取其页面信息及页面中文字块信息;步骤二、对文档进行版面切分;步骤三、为切分后的各个页面中的内容生成虚拟页;步骤四、对生成的虚拟页进行版面分析;步骤五、结构化分析。/n
【技术特征摘要】
1.一种连续页版式文档的结构化方法,其特征是,包括以下步骤:步骤一、解析版式文档,逐页获取其页面信息及页面中文字块信息;步骤二、对文档进行版面切分;步骤三、为切分后的各个页面中的内容生成虚拟页;步骤四、对生成的虚拟页进行版面分析;步骤五、结构化分析。
2.根据权利要求1所述一种连续页版式文档的结构化方法,其特征是;所述步骤二的具体步骤如下:识别页眉页脚并进行过滤,逐页计算页面的文本行line的位置信息,计算行高、行距等排版信息;根据据页眉页脚在不同页面的重复性,及位置、行高等特性识别出页眉、页脚的文本块,并从页面中去除,逐页识别脚注,并从页面内容中分离,形成正文短语块集合记为content_spans,及脚注短语块集合记为footnote_spans。
3.根据权利要求1所述一种连续页版式文档的结构化方法,其特征是;所述步骤四的具体步骤如下:对虚拟页中的短语块span进行排序;把虚拟页面进行分栏处理;提交当前表格;分析完成的结果集为一个列表blocks_list,其中包括文本块block及表格块table_block。
4.根据权利要求1所述一种连续页版式文档的结构化方法,其...
【专利技术属性】
技术研发人员:徐剑波,张诗玉,王磊,赵东岩,
申请(专利权)人:北京众信博雅科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。