【技术实现步骤摘要】
本专利技术涉及文档信息抽取领域,特别涉及文档标题层级提取方法、装置、设备及介质。
技术介绍
1、在电子文档的切分方案上,一种最简单的方法是给定一个最大长度l,将文档内容按照字数切分成n个不重合的、长度为l的块,每个块作为一条知识,这种方案非常简单,易于实现,但是,这种方法没有考虑到文档的语义和结构,只是机械地按照字数来分割文本,可能会导致切分出来的知识在语义上是不完整的,甚至可能将一个完整的句子或段落切分成几个部分,从而丢失了文档的结构信息和上下文关联。
2、对于电子文档来说,按照文档的小标题(章节标题、段落标题等)来做切分是一种更自然的方案,这是因为文档的小标题天然就将文本的内容从语义上划分成了不同的部分。实现文档层级标题的自动提取有两类方法,一种是基于特定性规则的方法,另一类是基于深度学习的方法;其中基于特定规则的方法,其主要问题在于规则的适用面窄,当需要处理大批量、内容组织形式多变的文档时,对每一类特定的文档甚至每一篇特殊的文档来维护一个正确的规则需要耗费大量的人力,在实际应用中难以实现;基于深度学习的方法虽然能够更自
...【技术保护点】
1.一种文档标题层级提取方法,其特征在于,包括:
2.根据权利要求1所述的文档标题层级提取方法,其特征在于,所述利用基于所述目标文档构建的正则表达式列表将所述当前节点与标题序数标识模式列表进行匹配,以得到与所述当前节点匹配的当前标题序数标识模式,包括:
3.根据权利要求2所述的文档标题层级提取方法,其特征在于,所述利用基于所述目标文档构建的正则表达式列表将所述当前节点与标题序数标识模式列表进行匹配,包括:
4.根据权利要求1所述的文档标题层级提取方法,其特征在于,所述基于预设层级匹配逻辑、所述当前标题序数标识模式以及上一标题序数标识
...【技术特征摘要】
1.一种文档标题层级提取方法,其特征在于,包括:
2.根据权利要求1所述的文档标题层级提取方法,其特征在于,所述利用基于所述目标文档构建的正则表达式列表将所述当前节点与标题序数标识模式列表进行匹配,以得到与所述当前节点匹配的当前标题序数标识模式,包括:
3.根据权利要求2所述的文档标题层级提取方法,其特征在于,所述利用基于所述目标文档构建的正则表达式列表将所述当前节点与标题序数标识模式列表进行匹配,包括:
4.根据权利要求1所述的文档标题层级提取方法,其特征在于,所述基于预设层级匹配逻辑、所述当前标题序数标识模式以及上一标题序数标识模式确定所述当前节点的标题层级,包括:
5.根据权利要求4所述的文档标题层级提取方法,其特征在于,...
【专利技术属性】
技术研发人员:彭滢,吴杰,龙鲸凤,齐伟钢,
申请(专利权)人:中电科网络安全科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。