文档标题层级提取方法、装置、设备及介质制造方法及图纸

技术编号:44974117 阅读:32 留言:0更新日期:2025-04-12 01:49
本申请公开了一种文档标题层级提取方法、装置、设备及介质,涉及文档信息抽取领域,包括:以目标文档的大标题为根节点将目标文档中的每个文本段落确定为各节点,从各节点中确定出当前节点;利用基于目标文档构建的正则表达式列表获取与当前节点匹配的当前标题序数标识模式;基于预设层级匹配逻辑、当前标题序数标识模式以及上一标题序数标识模式确定当前节点的标题层级;其中,预设层级匹配逻辑包括不同层级的标题序数标识模式相同或不相同且相同层级的标题序数标识模式相同;基于各节点的标题层级向根节点追溯各节点的完整层级标题信息,获取目标文档的完整层级结构。低成本且合理的切分文档内容,同时保持逻辑结构和语义信息的完整性和清晰度。

【技术实现步骤摘要】

本专利技术涉及文档信息抽取领域,特别涉及文档标题层级提取方法、装置、设备及介质


技术介绍

1、在电子文档的切分方案上,一种最简单的方法是给定一个最大长度l,将文档内容按照字数切分成n个不重合的、长度为l的块,每个块作为一条知识,这种方案非常简单,易于实现,但是,这种方法没有考虑到文档的语义和结构,只是机械地按照字数来分割文本,可能会导致切分出来的知识在语义上是不完整的,甚至可能将一个完整的句子或段落切分成几个部分,从而丢失了文档的结构信息和上下文关联。

2、对于电子文档来说,按照文档的小标题(章节标题、段落标题等)来做切分是一种更自然的方案,这是因为文档的小标题天然就将文本的内容从语义上划分成了不同的部分。实现文档层级标题的自动提取有两类方法,一种是基于特定性规则的方法,另一类是基于深度学习的方法;其中基于特定规则的方法,其主要问题在于规则的适用面窄,当需要处理大批量、内容组织形式多变的文档时,对每一类特定的文档甚至每一篇特殊的文档来维护一个正确的规则需要耗费大量的人力,在实际应用中难以实现;基于深度学习的方法虽然能够更自动化地学习数据中的特本文档来自技高网...

【技术保护点】

1.一种文档标题层级提取方法,其特征在于,包括:

2.根据权利要求1所述的文档标题层级提取方法,其特征在于,所述利用基于所述目标文档构建的正则表达式列表将所述当前节点与标题序数标识模式列表进行匹配,以得到与所述当前节点匹配的当前标题序数标识模式,包括:

3.根据权利要求2所述的文档标题层级提取方法,其特征在于,所述利用基于所述目标文档构建的正则表达式列表将所述当前节点与标题序数标识模式列表进行匹配,包括:

4.根据权利要求1所述的文档标题层级提取方法,其特征在于,所述基于预设层级匹配逻辑、所述当前标题序数标识模式以及上一标题序数标识模式确定所述当前节点...

【技术特征摘要】

1.一种文档标题层级提取方法,其特征在于,包括:

2.根据权利要求1所述的文档标题层级提取方法,其特征在于,所述利用基于所述目标文档构建的正则表达式列表将所述当前节点与标题序数标识模式列表进行匹配,以得到与所述当前节点匹配的当前标题序数标识模式,包括:

3.根据权利要求2所述的文档标题层级提取方法,其特征在于,所述利用基于所述目标文档构建的正则表达式列表将所述当前节点与标题序数标识模式列表进行匹配,包括:

4.根据权利要求1所述的文档标题层级提取方法,其特征在于,所述基于预设层级匹配逻辑、所述当前标题序数标识模式以及上一标题序数标识模式确定所述当前节点的标题层级,包括:

5.根据权利要求4所述的文档标题层级提取方法,其特征在于,...

【专利技术属性】
技术研发人员:彭滢吴杰龙鲸凤齐伟钢
申请(专利权)人:中电科网络安全科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1