文档处理方法、装置、计算机程序产品和可读存储介质制造方法及图纸

技术编号:37633378 阅读:20 留言:0更新日期:2023-05-20 08:54
本申请涉及一种文档处理方法、装置、计算机设备、存储介质和计算机程序产品,应用于数据处理技术领域。所述方法包括:获取待处理文档;根据待处理文档和预设标题样式对应的正则表达式,获得目标章节标题字典树;目标章节标题字典树包括至少一个子层级,各子层级包括至少一个节点;基于目标章节标题字典树中各子层级的各节点的统计信息和特征信息,获得文档树;根据文档树中各节点与各节点对应的兄弟节点之间的统计信息和特征信息,对文档树中各子层级的各节点进行模式挖掘,获得待处理文档对应的文档模式。采用本方法能够提高文档模式的识别准确率。识别准确率。识别准确率。

【技术实现步骤摘要】
文档处理方法、装置、计算机程序产品和可读存储介质


[0001]本申请涉及数据处理
,特别是涉及一种文档处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]通常地,待处理文档的抽取识别对企业有效利用非结构化数据提高数字化水平有重大的意义。目前,在待处理文档抽取识别方式上,现有技术是将其视为自然语言处理中的抽取任务,通过标注数据训练实体抽取和关系抽取模型,再根据具体的文档内容归纳总结一些定制化的规则来进行抽取,以获得文档模式。
[0003]然而,上述方式的识别准确率低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高识别准确率的文档处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种文档处理方法,所述方法包括:
[0006]获取待处理文档;根据所述待处理文档和预设标题样式对应的正则表达式,获得目标章节标题字典树;所述目标章节标题字典树包括至少一个子层级,各子层级包括至少一个节点;基于所述目本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法,其特征在于,所述方法包括:获取待处理文档;根据所述待处理文档和预设标题样式对应的正则表达式,获得目标章节标题字典树;所述目标章节标题字典树包括至少一个子层级,各子层级包括至少一个节点;基于所述目标章节标题字典树中各子层级的各节点的统计信息和特征信息,获得文档树;根据所述文档树中各节点与所述各节点对应的兄弟节点之间的统计信息和特征信息,对所述文档树中各子层级的各节点进行模式挖掘,获得所述待处理文档对应的文档模式。2.根据权利要求1所述的方法,其特征在于,所述根据所述文档树中各节点与所述各节点对应的兄弟节点之间的统计信息和特征信息,对所述文档树中各子层级的各节点进行模式挖掘,获得所述待处理文档对应的文档模式,包括:确定所述文档树中各节点与所述各节点对应的兄弟节点之间的统计信息和特征信息是否相似;当根据所述文档树中各节点与所述各节点对应的兄弟节点之间的统计信息和特征信息相似,确定所述文档树中各节点与所述各节点对应的兄弟节点具有相同模式时,根据所述文档树中所有节点的模式挖掘结果,获得所述待处理文档对应的文档模式。3.根据权利要求1所述的方法,其特征在于,所述根据所述待处理文档和预设标题样式对应的正则表达式,获得目标章节标题字典树,包括:根据所述待处理文档的至少一个段落信息,获得所述待处理文档对应的候选标题;根据所述候选标题和所述预设标题样式对应的正则表达式,获得所述候选章节标题字典树;预处理所述候选章节标题字典树,获得所述目标章节标题字典树。4.根据权利要求3所述的方法,其特征在于,所述候选标题包括多个预设内容,所述根据所述候选标题和所述预设标题样式对应的正则表达式,获得所述候选章节标题字典树,包括:根据所述多个预设内容中最先出现的预设内容确定所述候选标题对应的目标正则表达式;根据所述候选标题对应的目标正则表达式和所述候选标题对应的文字内容,获得所述候选章节标题字典树。5.根据权利要求3所述的方法,其特征在于,所述预设标题样式对应的正则表达式的数量为多个;所述根据所述候选标题和所述预设标题样式对应的正则表达式,获得所述候选章节标题字典树,包括:当根据所述预设标题样式对应的正则表达式,确定所述候选标题匹配所述多个正则表达式时,确定所述候选标题匹配的长度最长的正则表达式为所述候选标题对应的目标正则表达式;根据所述候选标题对应的目标正则表达式和所述候选标题对应的文字内容,获得所述候选章节标题字典树。6.根据权利要求3所述的方法,其特征在于,所述预处理所述候选章节标题字典树,获得所述目标章节标题字典树,包括:
合并所述候选章节标题字典树中出现次数相同的节点,获得第一参考章节标题字典树;对所述第一参考章节标题字典树中各节点设置段落范围,获得第二参考章节标题字典树;对不可能与所述第二参考章节标题字典树中各节点在同一层级的所述待处理文档的章节标题的节点进行排除,获得所述目标章节标题字典树。7.根据权利要求6所述的方法,其特征在于,所述对所述第一参考章节标题字典树中各节点设置段落范围,获得第二参考章节标题字典树,包括:确定所述第一参考章节标题字典树中各节点是否有子节点;在确定所述第一参考章节标题字典树中各节点没有子节点时,确定所述各节点的段落范围为所述各节点的起始段落编号和所述各节点的终止段落编号组成的范围;所述各节点的起始段落编号和所述终止段落编号为所述各节点在所述待处理文档中对应的段落编号;在确定所述第一参考章节标题字典树中各节点有子节点时,确定所述各节点的段落范围为所述各节点的起始段落编号和所述各节点的终止段落编号组成的范围;所述各节点的起始段落编号为所述各节点的第一个子节点在所述待处理文档中对应的段落编号,所述各节点的终止段落编号为所述各节点的最后一个子节点在所述待处理文档中对应的段落编号;确定对所述第一参考章节标题字典树中各节点设置段落范围后的所述第一参考章节标题字典树为所述第二参考章节标题字典树。8.根据权利要求6所述的方法,其特征在于,所述对不可能与所述第二参考章节标题字典树中各节点在同一层级的所述待处理文档的章节标题的节点进行排除,获得所述目标章节标题字典树,包括:遍历所述第二参考章节标题字典树中的各节点;当根据所述各节点的段落范围包括所述各节点对应的兄弟节点的段落范围,确定所述各节点对应的兄弟节点不可能为与所述各节点在同一层级的所述待处理文档的章节标题的节点时,获得所述目标章节标题字典树。9...

【专利技术属性】
技术研发人员:李斌谷利峰谢鸣晓刘峻杉
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1