一种文档提纲的抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35500742 阅读:11 留言:0更新日期:2022-11-09 14:09
本发明专利技术实施例提供了一种提纲列表的生成方法、装置、电子设备及存储介质,应用于计算机技术领域,该抽取方法包括:获取目标文档中的多个提纲标题;基于所述提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述提纲标题所属的层级;将归属于预定层级的多个所述提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。可见,本方案中,在生成目标提纲列表时,可以生成预定层级的多个目标提纲标题的提纲列表,即可以生成用户所需层级的多个目标提纲标题的提纲列表。可以解决现有技术的无法根据用户的提纲标题查看需求,生成对应的提纲列表,用户体验较差的问题。用户体验较差的问题。用户体验较差的问题。

【技术实现步骤摘要】
一种文档提纲的抽取方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机
,特别是涉及一种文档提纲的抽取方法、装置、电子设备及存储介质。

技术介绍

[0002]为了辅助读者从较多的文档数据中快速了解文档的内容,通常需要从文档中抽取文档提纲,从而使得读者能够基于文档的提纲来了解文档的内容。
[0003]现有技术中,在对目标文档进行提纲抽取时,遍历目标文档,基于预设的正则表达式,从目标文档中提取出提纲标题,并对抽取出的提纲标题进行排序,得到目标文档的提纲列表。
[0004]然而,目标文档中通常存在多个层级的提纲,例如:第一层级:第一、第二;第二层级:其一、其二;第三层级:1、2等等,在具体应用时,用户存在只查看由部分层级的提纲标题构成的提纲列表,例如:只需要查看由第一层级和第二层级的提纲标题构成的提纲列表。而通过现有技术所得到的提纲列表,为从目标文档中提取出的所有提纲标题构成的,无法根据用户的提纲标题查看需求,生成对应的提纲列表,用户体验较差。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种文档提纲的抽取方法、装置、电子设备及存储介质,以解决无法根据用户的提纲标题查看需求,生成对应的提纲列表的问题。具体技术方案如下:
[0006]第一方面,本专利技术实施例提供了一种提纲列表的生成方法,包括:
[0007]获取目标文档中的多个提纲标题;
[0008]基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级;
[0009]将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。
[0010]可选地,所述获取目标文档中的多个提纲标题,包括:
[0011]按照段落在所述目标文档的位置顺序,依次从所述目标文档中提取多个所述段落;
[0012]针对每一段落,识别所述段落的位置最靠前的句子,作为目标句;
[0013]从识别出的多个目标句中,确定多个提纲标题。
[0014]可选地,所述从识别出的多个目标句中,确定多个提纲标题,包括:
[0015]根据预定的正则表达式,从识别出的多个目标句中,匹配出提纲标题;其中,所述预定的正则表达式为一个或多个,每一正则表达式用于匹配一种命名结构的提纲标题。
[0016]可选地,所述获取目标文档中的多个提纲标题,包括:
[0017]从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位
置;
[0018]将所述提纲标题按照命名结构进行分组,得到多个提纲标题组;
[0019]按照所述提纲标题在所述目标文档中的位置,对每个所述提纲标题组内的所述提纲标题进行排序,得到已排序的多个所述提纲标题组。
[0020]可选地,所述从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置,包括:
[0021]根据多个预定的正则表达式,从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置,其中,每一正则表达式用于匹配一种命名结构的提纲标题。
[0022]可选地,每一预定的正则表达式包括起始部分、数字部分和结束部分三类组成部分,每一类组成部分包含与该类组成部分相匹配的元素值,且所述数字部分的元素值不为空。
[0023]可选地,基于所述提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述提纲标题所属的层级,包括:
[0024]将所述目标文档中位置最靠前的提纲标题,以及与所述位置最靠前的提纲标题的命名结构相同的提纲标题,作为最高层级对应的提纲标题。
[0025]可选地,所述基于各提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定各提纲标题所属的层级,还包括:
[0026]从当前确定的层级中,查找最低层级,得到当前层级;
[0027]确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于该当前层级的提纲标题;
[0028]将所述下一层级的命名结构对应的提纲标题组,作为下一层级对应的提纲标题组。
[0029]可选地,将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表,包括:
[0030]从所述多个提纲标题组中,确定归属于预定层级的多个提纲标题组,得到多个目标提纲标题组;
[0031]针对每一目标提纲标题组中的各目标提纲标题,确定各所述目标提纲标题对应的基准提纲标题;其中,所述目标提纲标题对应的基准提纲标题为所述目标提纲标题的上一层级对应的提纲标题;
[0032]根据各所述目标提纲标题在所述目标文档中的位置顺序,将所述目标提纲标题融合至各基准提纲标题之后,得到所述目标文档的提纲列表。
[0033]可选地,所述基于所述提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述提纲标题所属的层级,包括:
[0034]将所述目标文档中位置最靠前的提纲标题,以及与所述位置最靠前的提纲标题的命名结构相同的提纲标题,作为最高层级对应的提纲标题。
[0035]可选地,所述基于各提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定各提纲标题所属的层级,还包括:
[0036]从当前所确定的层级中,查找最低层级,得到当前层级;
[0037]确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于所述当前层级的提纲标题;
[0038]在所述第一提纲标题不是所述当前层级的最后一个提纲标题的情况下,将在所述目标文档中位于所述第一提纲标题和第二提纲标题之间、且具备所述下一层级的命名结构的提纲标题,确定为所述下一层级对应的提纲标题,其中,所述第二提纲标题为与所述第一提纲标题所属层级相同,且与所述第一提纲标题相邻的提纲标题;
[0039]在所述第一提纲标题是所述当前层级的最后一个提纲标题的情况下,将所述目标文档中位于所述第一提纲标题之后、且具备所述下一层级的命名结构的提纲标题,确定为所述下一层级对应的提纲标题。
[0040]可选地,所述方法还包括:为每一提纲标题附加一模式标识;其中,所述模式标识为与所述提纲标题相匹配的正则表达式所对应的唯一标识,且模式标识相同的提纲标题为具有相同命名结构的提纲标题。
[0041]可选地,所述将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表,包括:
[0042]从所述多个提纲标题中,确定归属于预定层级的多个提纲标题,得到多个目标提纲标题;
[0043]针对每一目标提纲标题,确定所述目标提纲标题对应的基准提纲标题;其中,所述目标提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提纲列表的生成方法,其特征在于,包括:获取目标文档中的多个提纲标题;基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级;将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表。2.根据权利要求1所述的方法,其特征在于,所述获取目标文档中的多个提纲标题,包括:按照段落在所述目标文档的位置顺序,依次从所述目标文档中提取多个所述段落;针对每一段落,识别所述段落的位置最靠前的句子,作为目标句;从识别出的多个目标句中,确定多个提纲标题。3.根据权利要求2所述的方法,其特征在于,所述从识别出的多个目标句中,确定多个提纲标题,包括:根据预定的正则表达式,从识别出的多个目标句中,匹配提纲标题;其中,所述预定的正则表达式为一个或多个,每一正则表达式用于匹配一种命名结构的提纲标题。4.根据权利要求1所述的方法,其特征在于,所述获取目标文档中的多个提纲标题,包括:从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置;将所述提纲标题按照命名结构进行分组,得到多个提纲标题组;按照所述提纲标题在所述目标文档中的位置,对每个所述提纲标题组内的所述提纲标题进行排序,得到已排序的多个所述提纲标题组。5.根据权利要求4所述的方法,其特征在于,所述从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置,包括:根据多个预定的正则表达式,从目标文档中提取出多个提纲标题,并记录所述提纲标题在所述目标文档中的位置,其中,每一正则表达式用于匹配一种命名结构的提纲标题。6.根据权利要求3或5所述的方法,其特征在于,每一预定的正则表达式包括起始部分、数字部分和结束部分三类组成部分,每一类组成部分包含与所述类组成部分相匹配的元素值,且所述数字部分的元素值不为空。7.根据权利要求4所述的方法,其特征在于,基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级,包括:将所述目标文档中位置最靠前的提纲标题所在的提纲标题组,作为最高层级对应的提纲标题组。8.根据权利要求7所述的方法,其特征在于,基于所述多个提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述多个提纲标题所属的层级,还包括:从当前确定的层级的提纲标题组中,查找最低层级的提纲标题组,得到当前层级的提纲标题组;确定当前层级的下一层级的命名结构,其中,所述下一层级的命名结构为在所述目标文档中位于第一提纲标题的后一位,且与所述第一提纲标题的命名结构不同的提纲标题所对应的命名结构;其中,所述第一提纲标题为归属于所述当前层级的提纲标题组中的提纲
标题;将所述下一层级的命名结构对应的提纲标题组,作为下一层级对应的提纲标题组。9.根据权利要求7所述的方法,其特征在于,将归属于预定层级的多个目标提纲标题,按照所述层级的先后顺序进行融合,得到目标提纲列表,包括:从所述多个提纲标题组中,确定归属于预定层级的多个提纲标题组,得到多个目标提纲标题组;针对每一目标提纲标题组中的各目标提纲标题,确定各所述目标提纲标题对应的基准提纲标题;其中,所述目标提纲标题对应的基准提纲标题为所述目标提纲标题的上一层级对应的提纲标题;根据各所述目标提纲标题在所述目标文档中的位置顺序,将所述目标提纲标题融合至各基准提纲标题之后,得到所述目标文档的提纲列表。10.根据权利要求1项所述的方法,其特征在于,所述基于所述提纲标题的命名结构,以及在所述目标文档中的位置顺序,确定所述提纲标题所属的层级,包括:将所述目标...

【专利技术属性】
技术研发人员:陈启贤余燕王浪
申请(专利权)人:北京金山办公软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1