一种文档标题结构树生成方法、装置及系统制造方法及图纸

技术编号:25803416 阅读:15 留言:0更新日期:2020-09-29 18:37
本发明专利技术公开了一种文档标题结构树生成方法、装置及系统,本发明专利技术建立标题规则和层级规则,遍历文档段落,将符合标题规则的段落标识为标题,依据层级规则为标题标识层级;第一换行符之前的部分以及每两个换行符之间的部分为所述段落;给文档的每行标识行号,获取标题的层级,每个标题依据行号向前追溯的第一个比其低一个层级的标题为其父级标题,生成标题结构树,夹在两个标题之间的所有行为一个段落区块,将该段落区块与依据行号向前追溯的第一个标题关联,本发明专利技术实现了文档标题及层级识别、标题与段落的关联,本发明专利技术以段落为单元进行文档标题识别,不会因为标题过长而影响标题结构树的准确性。

【技术实现步骤摘要】
一种文档标题结构树生成方法、装置及系统
本专利技术涉及一种文档标题结构树生成方法、装置及系统。
技术介绍
在计算机分析技术文档的工作场景中,需要获取文档中的信息,包括标题、段落、图表等,并还原出文档的标题结构。为了进一步提升计算机分析文档准确度,以及提升读者阅读文档的便捷程度,还需将段落与其所属的标题进行关联,实现用户在系统的展示界面中选择某一标题,就自动呈现该标题下面的段落。中国专利CN107291677A公开了一种PDF文档标题结构树生成方法、装置、终端及系统,该方法通过对PDF文档建立坐标,划分单元行,按单元行来识别标题。对于占多行的标题,容易出现识别错误。
技术实现思路
本专利技术要解决的技术问题是:提供一种准确率高的文档标题结构树生成方法,还提供一种准确率高的文档标题结构树生成装置,以及提供一种准确率高的文档标题结构树生成系统。为了解决上述技术问题,本专利技术一种文档标题结构树生成方法,所述方法包括:建立标题规则和层级规则,遍历文档段落,将符合标题规则的段落标识为标题,依据层级规则为标题标识层级;第一换行符之前的部分以及每两个换行符之间的部分为所述段落;给文档的每行标识行号,获取标题的层级,每个标题依据行号向前追溯的第一个比其低一个层级的标题为其父级标题,生成标题结构树,夹在两个标题之间的所有行为一个段落区块,将该段落区块与依据行号向前追溯的第一个标题关联。为实现人工修改标题结构树的错误,进一步提高标题结构树的准确性,在段落区块与标题关联后检查标题结构树,按以下方法修改错误的标题或段落区块,标题层级错误的修改方法:修改错误标题层级;错误标题修改为段落的修改方法:去除错误标题的标题标识和层级标识,将错误标题、错误标题所关联的段落区块以及错误标题依据行号向前追溯的第一个标题关联的段落区块合并为一个段落区块,将合并的段落区块与错误标题依据行号向前追溯的第一个标题关联;错误段落修改为标题的修改方法:将错误段落与错误段落依据行号向前追溯的第一个标题之间的所有段落定为一个段落区块,将该段落区块与错误段落依据行号向前追溯的第一个标题关联;将错误段落标识为标题并标识层级,将错误段落与错误段落依据行号向后追溯的第一个标题之间的所有段落定为一个段落区块,将该段落区块与错误段落修改成的标题关联;每次修改后,依照每个标题依据行号向前追溯的第一个比其低一个层级的标题为其父级标题的方法,重生成标题结构树。为了便于修改标题层级错误,在依据层级规则为标题标识层级后,存储最大层级的层级数,在修改标题层级时,可选取的标题层级最大不超过所述最大层级的层级数。为了便于处理PDF文档,所述文档为PDF文档,在遍历文档之前,将PDF文档转换成文字文档。为了提高运行速度,所述的标题规则包含多条并列的规则,当段落符合标题规则中的一条时,判断该段落为标题,所述的层级规则包含多条并列的规则,当标题符合层级规则中的一条时,将该标题标识为对应标题规则对应的层级。本专利技术文档标题结构树生成装置,包括:第一存储单元,用于存储标题规则和层级规则;第二存储单元,用于存储文档;第一处理单元:用于调用第二存储单元的文字文档和第一存储单元的标题规则和层级规则,遍历文档段落,将符合标题规则的段落标识为标题,依据层级规则为标题标识层级;第一换行符之前的部分以及每两个换行符之间的部分为所述段落;第二处理单元:用于给文档的每行标识行号,获取标题的层级,每个标题依据行号向前追溯的第一个比其低一个层级的标题为其父级标题,生成标题结构树,夹在两个标题之间的所有行为一个段落区块,将该段落区块与依据行号向前追溯的第一个标题关联。为实现人工修改标题结构树的错误,进一步提高标题结构树的准确性,还包括有第三处理单元,第三处理单元用于在段落区块与标题关联后检查标题结构树,按以下方法修改错误的标题或段落区块,标题层级错误的修改方法:修改错误标题层级;错误标题修改为段落的修改方法:去除错误标题的标题标识和层级标识,将错误标题、错误标题所关联的段落区块以及错误标题依据行号向前追溯的第一个标题关联的段落区块合并为一个段落区块,将合并的段落区块与错误标题依据行号向前追溯的第一个标题关联;错误段落修改为标题的修改方法:将错误段落与错误段落依据行号向前追溯的第一个标题之间的所有段落定为一个段落区块,将该段落区块与错误段落依据行号向前追溯的第一个标题关联;将错误段落标识为标题并标识层级,将错误段落与错误段落依据行号向后追溯的第一个标题之间的所有段落定为一个段落区块,将该段落区块与错误段落修改成的标题关联;每次修改后,依照每个标题依据行号向前追溯的第一个比其低一个层级的标题为其父级标题的方法,重生成标题结构树。为了便于处理PDF文档,文档标题结构树生成装置还包括有文字识别单元,用于将第二存储单元中的PDF文档转换为文字文档。本专利技术种文档标题结构树生成系统,包括服务器和用户终端;所述服务器包括接收模块、处理模块和发送模块;所述接收模块,用于从所述用户终端接收文档;所述处理模块为前述文档标题结构树生成装置,所述的发送模块为用于将处理模块生成的标题结构树发送至所述用户终端;所述用户终端,用于向所述服务器发送文档和从所述服务器接收所述标题结构树。本专利技术文档标题结构树生成系统,包括服务器和用户终端;所述服务器包括接收模块、处理模块和发送模块;所述接收模块,用于从所述用户终端接收文档;所述处理模块为前述文档标题结构树生成装置,所述的发送模块为用于将所述标题结构树发送至所述用户终端;所述用户终端,用于向所述服务器发送文档、修改指令和从所述服务器接收处理模块生成的标题结构树。本专利技术的有益效果是:本专利技术实现了文档标题及层级识别、标题与段落的关联,本专利技术以段落为单元进行文档标题识别,不会因为标题过长而影响标题结构树的准确性,本专利技术一方面,能完整的提取、还原文档的标题结构,另一方面,操作人员能通过点击某一标题,就能直接查看该标题关联的段落区块。并且在优选方案中还设置有人工查错和纠错的技术手段,使标题结构树的准确性更高。本专利技术适用于对技术标准、法规、专利等专业技术文件的处理。附图说明图1是本专利技术生成的一种标题结构树的示意图;图2是本专利技术生成的一种需要纠错的标题结构树的示意图;具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本具体实施例文档标题结构树生成系统,包括服务器和用户终端;服务器包括接收模块、处理模块和发送模块;所述接收模块,用于从所述用户终端接收文档;处理模块为一种文档标题结构树生成装置,发送模块为用于将处理模块生成的标题结构树发送至所述用户终端;用户终端,用于向服务器发送文档、修本文档来自技高网...

【技术保护点】
1.一种文档标题结构树生成方法,其特征在于:所述方法包括:/n建立标题规则和层级规则,遍历文档段落,将符合标题规则的段落标识为标题,依据层级规则为标题标识层级;第一换行符之前的部分以及每两个换行符之间的部分为所述段落;/n给文档的每行标识行号,获取标题的层级,每个标题依据行号向前追溯的第一个比其低一个层级的标题为其父级标题,生成标题结构树,夹在两个标题之间的所有行为一个段落区块,将该段落区块与依据行号向前追溯的第一个标题关联。/n

【技术特征摘要】
1.一种文档标题结构树生成方法,其特征在于:所述方法包括:
建立标题规则和层级规则,遍历文档段落,将符合标题规则的段落标识为标题,依据层级规则为标题标识层级;第一换行符之前的部分以及每两个换行符之间的部分为所述段落;
给文档的每行标识行号,获取标题的层级,每个标题依据行号向前追溯的第一个比其低一个层级的标题为其父级标题,生成标题结构树,夹在两个标题之间的所有行为一个段落区块,将该段落区块与依据行号向前追溯的第一个标题关联。


2.根据权利要求1所述的文档标题结构树生成方法,其特征在于:在段落区块与标题关联后检查标题结构树,按以下方法修改错误的标题或段落区块,
标题层级错误的修改方法:修改错误标题层级;
错误标题修改为段落的修改方法:去除错误标题的标题标识和层级标识,将错误标题、错误标题所关联的段落区块以及错误标题依据行号向前追溯的第一个标题关联的段落区块合并为一个段落区块,将合并的段落区块与错误标题依据行号向前追溯的第一个标题关联;
错误段落修改为标题的修改方法:将错误段落与错误段落依据行号向前追溯的第一个标题之间的所有段落定为一个段落区块,将该段落区块与错误段落依据行号向前追溯的第一个标题关联;将错误段落标识为标题并标识层级,将错误段落与错误段落依据行号向后追溯的第一个标题之间的所有段落定为一个段落区块,将该段落区块与错误段落修改成的标题关联;
每次修改后,依照每个标题依据行号向前追溯的第一个比其低一个层级的标题为其父级标题的方法,重生成标题结构树。


3.根据权利要求2所述的文档标题结构树生成方法,其特征在于:在依据层级规则为标题标识层级后,存储最大层级的层级数,在修改标题层级时,可选取的标题层级最大不超过所述最大层级的层级数。


4.根据权利要求1或2所述的文档标题结构树生成方法,其特征在于:所述文档为PDF文档,在遍历文档之前,将PDF文档转换成文字文档。


5.根据权利要求1-3中任何一项所述的文档标题结构树生成方法,其特征在于:所述的标题规则包含多条并列的规则,当段落符合标题规则中的一条时,判断该段落为标题,所述的层级规则包含多条并列的规则,当标题符合层级规则中的一条时,将该标题标识为对应标题规则对应的层级。


6.一种文档标题结构树生成装置,其特征在于:包括:第一存储单元,用于存储标题规则和层级规则;
第二存储单元,用于存储文档;
第一处理单元:用于调用第二存储单元的文字文档和第一存储单元的标题规则和层级规...

【专利技术属性】
技术研发人员:刘文豪陈兵张勇曹桢李丽
申请(专利权)人:北京双泽维度信息技术有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1