一种文档结构检测方法及装置制造方法及图纸

技术编号:32129488 阅读:24 留言:0更新日期:2022-01-29 19:25
本发明专利技术公开了一种文档结构检测方法及装置,包括:基于预创建的目标文档模型对待检测文档进行解析,获得所述待检测文档的文档树;获取与所述待检测文档对应的目标文档,并获取与所述目标文档对应的文档树,所述目标文档为具有目标模板的文档;基于所述目标文档的文档树对所述待检测文档的文档树进行章节结构检测,得到检测结果。本发明专利技术实现了对文档章节逻辑结构的规范性检测,提高了文档数据分析效率。率。率。

【技术实现步骤摘要】
一种文档结构检测方法及装置


[0001]本专利技术涉及信息处理
,特别是涉及一种文档结构检测方法及装置。

技术介绍

[0002]文档规范性检测在文档管理中较为重要,对于内容较多的文档,人工检测文档规范性需要花费大量的时间和精力。通常的检测方法只能针对常见的格式和排版等信息进行检测,无法实现特定模板下word文档的章节规范性检测。

技术实现思路

[0003]针对于上述问题,本专利技术提供了一种文档结构检测方法及装置,实现对文章章节逻辑结构的规范性检测,提高了文档数据分析效率。
[0004]为了实现上述目的,本专利技术提供了如下技术方案:
[0005]一种文档结构检测方法,所述方法包括:
[0006]基于预创建的目标文档模型对待检测文档进行解析,获得所述待检测文档的文档树,所述目标文档模型用于描述文档的章节结构及内容,所述文档树为基于可扩展标记语言XML将数据转换为树结构的格式;
[0007]获取与所述待检测文档对应的目标文档,并获取与所述目标文档对应的文档树,所述目标文档为具有目标模板的文档;
[0008]基于所述目标文档的文档树对所述待检测文档的文档树进行章节结构检测,得到检测结果。
[0009]可选地,所述方法还包括:
[0010]基于所述检测结果获取与所述待检测文档每一段落对应的标注内容;
[0011]将所述待检测文档与所述标注内容进行组合,获得具有标注信息的文档。
[0012]可选地,所述方法还包括:
[0013]基于文档的章节结构信息,创建目标文档模型,包括:
[0014]获取文档的节点信息,所述节点信息包括各个节点的层级关系以及节点信息,所述节点为与所述节点对应的层级的章节标题;
[0015]获取文档的标题结构信息,所述标题结构信息包括标题式样、标题内容和标题内容式样;
[0016]基于所述节点信息和所述标题结构信息,生成目标文档模型。
[0017]可选地,包括:
[0018]遍历所述待检测文档的段落,获取每一段落的段落角色,所述段落角色包括正文、表格和标题;
[0019]基于所述段落角色确定每一段落的层级节点,所述节点包括段落在文档中的顺序位置和标题的章节层级;
[0020]确定每一节点的段落文本内容和段落文本式样;
[0021]将各层级的标题信息写入到XML文档中,获得所述待检测文档的文档树。
[0022]可选地,所述基于所述目标文档的文档树对所述待检测文档的文档树进行章节结构检测,得到检测结果,包括:
[0023]分别获取所述目标文档的文档树以及所述待检测文档的文档树对应的一级标题信息,将所述一级标题信息存储在对应的哈希表中;
[0024]对所述哈希表进行遍历,检测一级标题信息是否一致;
[0025]若一致,进行二级标题信息的一致性检测;
[0026]若不一致,生成标注信息,将标注信息添加至所述待检测文档中;
[0027]直至完成各级标题信息的检测,获得检测结果。
[0028]一种文档结构检测装置,所述装置包括:
[0029]解析单元,用于基于预创建的目标文档模型对待检测文档进行解析,获得所述待检测文档的文档树,所述目标文档模型用于描述文档的章节结构及内容,所述文档树为基于可扩展标记语言XML将数据转换为树结构的格式;
[0030]获取单元,用于获取与所述待检测文档对应的目标文档,并获取与所述目标文档对应的文档树,所述目标文档为具有目标模板的文档;
[0031]检测单元,用于基于所述目标文档的文档树对所述待检测文档的文档树进行章节结构检测,得到检测结果。
[0032]可选地,所述装置还包括:
[0033]标注内容获取单元,用于基于所述检测结果获取与所述待检测文档每一段落对应的标注内容;
[0034]组合单元,用于将所述待检测文档与所述标注内容进行组合,获得具有标注信息的文档。
[0035]可选地,所述装置还包括:
[0036]模型创建单元,用于基于文档的章节结构信息,创建目标文档模型,所述模型创建单元包括:
[0037]第一获取子单元,用于获取文档的节点信息,所述节点信息包括各个节点的层级关系以及节点信息,所述节点为与所述节点对应的层级的章节标题;
[0038]第二获取子单元,用于获取文档的标题结构信息,所述标题结构信息包括标题式样、标题内容和标题内容式样;
[0039]生成子单元,用于基于所述节点信息和所述标题结构信息,生成目标文档模型。
[0040]可选地,所述获取单元包括:
[0041]第一遍历子单元,用于遍历所述待检测文档的段落,获取每一段落的段落角色,所述段落角色包括正文、表格和标题;
[0042]第一确定子单元,用于基于所述段落角色确定每一段落的层级节点,所述节点包括段落在文档中的顺序位置和标题的章节层级;
[0043]第二确定子单元,用于确定每一节点的段落文本内容和段落文本式样;
[0044]写入子单元,用于各层级的标题信息写入到XML文档中,获得所述待检测文档的文档树。
[0045]可选地,所述检测单元包括:
[0046]第三获取子单元,用于分别获取所述目标文档的文档树以及所述待检测文档的文档树对应的一级标题信息,将所述一级标题信息存储在对应的哈希表中;
[0047]检测子单元,用于对所述哈希表进行遍历,检测一级标题信息是否一致;
[0048]若一致,进行二级标题信息的一致性检测;
[0049]若不一致,生成标注信息,将标注信息添加至所述待检测文档中;
[0050]直至完成各级标题信息的检测,获得检测结果。
[0051]相较于现有技术,本专利技术提供了一种文档结构检测方法及装置,包括:基于预创建的目标文档模型对待检测文档进行解析,获得所述待检测文档的文档树;获取与所述待检测文档对应的目标文档,并获取与所述目标文档对应的文档树,所述目标文档为具有目标模板的文档;基于所述目标文档的文档树对所述待检测文档的文档树进行章节结构检测,得到检测结果。本专利技术实现了对文档章节逻辑结构的规范性检测,提高了文档数据分析效率。
附图说明
[0052]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0053]图1为本专利技术实施例提供的一种文档结构检测方法的流程示意图;
[0054]图2为本专利技术实施例提供的一种提纲描述的模型结构示意图;
[0055]图3为本专利技术实施例提供的一种文档结构检测装置的结构示意图。
具体实施方式
[0056]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档结构检测方法,其特征在于,所述方法包括:基于预创建的目标文档模型对待检测文档进行解析,获得所述待检测文档的文档树,所述目标文档模型用于描述文档的章节结构及内容,所述文档树为基于可扩展标记语言XML将数据转换为树结构的格式;获取与所述待检测文档对应的目标文档,并获取与所述目标文档对应的文档树,所述目标文档为具有目标模板的文档;基于所述目标文档的文档树对所述待检测文档的文档树进行章节结构检测,得到检测结果。2.根据权利要求1所述方法,其特征在于,所述方法还包括:基于所述检测结果获取与所述待检测文档每一段落对应的标注内容;将所述待检测文档与所述标注内容进行组合,获得具有标注信息的文档。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于文档的章节结构信息,创建目标文档模型,包括:获取文档的节点信息,所述节点信息包括各个节点的层级关系以及节点信息,所述节点为与所述节点对应的层级的章节标题;获取文档的标题结构信息,所述标题结构信息包括标题式样、标题内容和标题内容式样;基于所述节点信息和所述标题结构信息,生成目标文档模型。4.根据权利要求1所述的方法,所述获得待检测文档的文档树,包括:遍历所述待检测文档的段落,获取每一段落的段落角色,所述段落角色包括正文、表格和标题;基于所述段落角色确定每一段落的层级节点,所述节点包括段落在文档中的顺序位置和标题的章节层级;确定每一节点的段落文本内容和段落文本式样;将各层级的标题信息写入到XML文档中,获得所述待检测文档的文档树。5.根据权利要求1所述的方法,其特征在于,所述基于所述目标文档的文档树对所述待检测文档的文档树进行章节结构检测,得到检测结果,包括:分别获取所述目标文档的文档树以及所述待检测文档的文档树对应的一级标题信息,将所述一级标题信息存储在对应的哈希表中;对所述哈希表进行遍历,检测一级标题信息是否一致;若一致,进行二级标题信息的一致性检测;若不一致,生成标注信息,将标注信息添加至所述待检测文档中;直至完成各级标题信息的检测,获得检测结果。6.一种文档结构检测装置,其特征在于,所述装置包括:解析单元,用于基于预创建的目标文档模型对待检测文档进行解析,获得...

【专利技术属性】
技术研发人员:刘林谢丰张普含程岩霍杏梅
申请(专利权)人:中国信息安全测评中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1