文档大纲生成方法及装置制造方法及图纸

技术编号:42062005 阅读:17 留言:0更新日期:2024-07-19 16:47
本申请涉及一种文档大纲生成方法及装置,所述方法包括:从待识别文档中提取多个文本行;提取每个所述文本行的第一多模态特征,并根据每个所述文本行的第一多模态特征从所述多个文本行中确定标题文本;提取每个所述标题文本的第二多模态特征,并根据每个所述标题文本的第二多模态特征确定每个所述标题文本的层级属性;根据每个所述标题文本的层级属性,确定所述待识别文档的大纲。由此实现了从任意的文档中识别出标题并赋予标题正确的层级关系,从而生成文档大纲,并且能够有效保证标题文本以及标题文本层级属性的识别准确率。

【技术实现步骤摘要】

本申请涉及计算机领域,尤其涉及一种文档大纲生成方法及装置


技术介绍

1、文档大纲生成指从文档中识别出所有的标题并赋予它们正确的层级关系。在应用中,文档大纲生成技术可以使得用户只需提供一份文档,就可以利用该技术输出文档的大纲结构。这项技术适用于办公场景下常见的各类文档,如论文、合同、说明书、调查报告等,使得文档的总结和管理变得更加方便。

2、目前的文档大纲生成技术通过先定位到文档中的目录页并从目录页中提取出各项标题,然后通过文本匹配的方式确定这些标题在文档中的位置,最后根据特定的正则匹配关系识别出标题之间的层级关系。

3、然而,上述方式只能适用于存在目录页且标题序号简单的文档,对于不存在目录页或者标题序号复杂的文档,则无法适用上述方式来生成文档大纲。因此,现有技术中的文档大纲生成方式具有很大的局限性。


技术实现思路

1、本申请提供了一种文档大纲生成方法及装置,以解决现有技术中的文档大纲生成方式只能适用于存在目录页且标题序号简单的文档,具有很大局限性的技术问题。>

2、第一方面本文档来自技高网...

【技术保护点】

1.一种文档大纲生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据每个所述文本行的第一多模态特征从所述多个文本行中确定标题文本,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据每个所述标题文本的第二多模态特征确定每个所述标题文本的层级属性,包括:

4.根据权利要求2所述的方法,其特征在于,所述文本行的第一多模态特征包括:版式特征、语句特征、样式特征以及序号特征;所述多模态标题识别模型中包括第一分支网络和第二分支网络;所述利用所述多模态标题识别模型中不同的分支网络对所述文本行的第一多模态特征进行特征提取,包...

【技术特征摘要】

1.一种文档大纲生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据每个所述文本行的第一多模态特征从所述多个文本行中确定标题文本,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据每个所述标题文本的第二多模态特征确定每个所述标题文本的层级属性,包括:

4.根据权利要求2所述的方法,其特征在于,所述文本行的第一多模态特征包括:版式特征、语句特征、样式特征以及序号特征;所述多模态标题识别模型中包括第一分支网络和第二分支网络;所述利用所述多模态标题识别模型中不同的分支网络对所述文本行的第一多模态特征进行特征提取,包括:

5.根据权利要求1所述的方法,其特征在于,所述第一多模态特征包括序号特征,其中,所述序号特征通过以下方式提取:

6.根据权利要求1所述的方法,其特征在于,所述第一多模态特征包括样式特征,其中,所述样式特征通过以下方式提取:

7.根据权利要求3所述的方法,其特征在于,所述标题文本的第二多模态特征包括:版式特征、语句特征以及页码特征;所述多模态标题层级识别模型中包括第三分支网络和第四分支网络;所述利用所述多模态标题层...

【专利技术属性】
技术研发人员:林士松
申请(专利权)人:武汉金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1