文档层级划分方法、文档层级划分装置和可读存储介质制造方法及图纸

技术编号:23984672 阅读:21 留言:0更新日期:2020-04-29 12:57
本发明专利技术提供了一种文档层级划分方法、文档层级划分装置和可读存储介质。其中,文档层级划分方法包括:获取文档中的标题,并提取标题的文本特征;根据文本特征对标题进行分类,以确定标题类别;根据标题类别和排列顺序确定标题的级别;其中,文本特征包括:关键字信息、词义信息和字形信息。实现了自动识别文档中标题的层级关系,根据标题的层级关系可以快速提取出文档的大纲结构。满足了编辑出版人员对图书内容逻辑的快速检查、自动排版、结构化加工等方面的需求。

Document hierarchy method, document hierarchy device and readable storage medium

【技术实现步骤摘要】
文档层级划分方法、文档层级划分装置和可读存储介质
本专利技术涉及文档排版
,具体而言,涉及一种文档层级划分方法、一种文档层级划分装置和一种计算机可读存储介质。
技术介绍
当前图书出版领域中,由于传统的出版流程及工艺主要关注图书内容,导致在作者、编辑、排版、印刷等环节流通的各类文档主要包括图书的内容,图书大纲结构很少包含或结构混乱,无法满足自动排版或其他数字出版的要求。如何能够满足编辑出版人员对图书内容进行快速逻辑检查、自动排版、结构化加工等方面的需求,成为亟需解决的技术问题。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的第一方面提供了一种文档层级划分方法。本专利技术的第二方面提供了一种文档层级划分装置。本专利技术的第三方面提供了一种计算机可读存储介质。为了实现上述目的,根据本专利技术的第一方面的技术方案,提供了一种文档层级划分方法,包括:获取文档中的标题,并提取标题的文本特征;根据文本特征对标题进行分类,以确定标题类别;根据标题类别和排列顺序确定标题的级别;其中,文本特征包括:关键字信息、词义信息和字形信息。在该技术方案中,在需要对文档进行排版布局前,获取文档中的所有标题,并提取标题的文本特征,根据提取的文本特征对获取到的标题进行分类从而确定每个标题的类别,根据标题的类别和排列顺序确定标题的级别,根据标题的级别对文档进行排版。其中,排列顺序为标题在文档中出现的先后顺序。本文特征包括关键字信息、词义信息和字形信息。通过确定文档中标题的类型以及各个类型标题出现的顺序可以准确的对文档中的标题级别进行划分,实现了自动识别文档中标题的层级关系,根据标题的层级关系可以快速提取出文档的大纲结构。满足了编辑出版人员对图书内容逻辑的快速检查、自动排版、结构化加工等方面的需求。在上述任一技术方案中,根据文本特征对标题进行分类的步骤,具体包括;标题的词义信息不符合预设词义确定标题为未定级标题;根据关键字信息对未定标题进行分类,以确定项目类标题和数字类标题;根据字形信息对数字类标题进行分类,以确定数字类标题的字形类别。在该技术方案中,根据标题的词义信息是否符合预设词义确定标题是否为未定级标题,具体为当标题的词义符合预设词义则确定标题为定级标题,如果标题的词义不符合预设词义则确定标题为未定级标题。对未定级的标题根据关键字信息进行分类,将未定的标题分类为项目类标题和数字类标题,根据字形信息对数据子类标题进行分类,确定每个数字类标题的字形类别。即现根据词义确定出文档中的大标题,根据关键字信息和字形信息对文档中每章中的子标题进行两次分类,实现了根据文本特征对在文本当中采集到的标题进行分类,确定文档中需要的确定界别的标题。可以理解的是,根据标题的词义确定文档中的大标题,例如章节标题:“第一章,经济学视角下的人力资源概念”。对大标题下的子标题中是否存在关键字确定子标题是否为项目类的标题,具体例如:查找标题中是否含有关键字“项目”等,如果标题中包括关键字“项目”,则确定标题为项目类标题,其余为数字类标题。根据字形信息对数字类标题进行分类,具体例如:将为带括号的数字标题分为一类,再将不带有括号的数字分类一类。其中,值得注意的是汉字形式的数字例如“一”、“二”也属于数字类标题。在上述任一技术方案中,根据标题类别和排列顺序确定标题的级别的步骤包括:根据标题类别确定对未定级标题的第一调整顺序;按照第一调整顺序,根据排列顺序依次确定项目类标题和数字类标题的级别。在该技术方案中,未定级的标题分为项目类标题和数字类标题,对项目类标题和数字类标题设置第一调整顺序,确定是先对项目类标题进行调整还是先对数字类标题进行调整。按照第一调整顺序,按照标题的排列顺序对项目类标题和数字类标题进行标题级别调整。在上述任一技术方案中,第一调整顺序为确定项目类标题的级别后确定数字类标题的级别。在该技术方案中,第一调整顺序为先对项目类标题进行调正级别,再对数字类标题进行调整级别。在文档中项目类标题通常级别相对于数字类的要高,先确定级别较高的标题可以使标题进行定级时不需要对较高级别的标题重新进行设置等级,在较高级别的标题后对较低级别的标题进行确定即可,节省了整体调整标题级别的步骤,提高调整效率使调整更加合理。可以理解的是,第一调整顺序可以根据用户意愿或者文档的实际情况进行调整。在上述任一技术方案中,确定项目类标题的级别的步骤,具体包括:根据排列顺序对项目类标题进行划分层级,以使项目类标题为定级标题,并确定定级标题的级别。在该技术方案中,根据排列顺序对项目类的标题定级,使项目类标题为定级标题并且确定每个项目类的标题的级别。标题在文档中的出现顺序可以一定程度代表级别的高低,项目类标题均为同一种标题,则认为项目类标题出现在文档中先后顺序可以确定项目类标题的级别高低。在上述任一技术方案中,确定数字类标题的级别的步骤,具体包括:根据排列顺序查找位于数字类标题之前的定级标题,确定与数字类标题最接近的定级标题的级别;根据定级标题的级别确定数字类标题的级别。在该技术方案中,在对标题根据第一调整顺序进行调整级别时,数字类标题为最后进行调整的标题。确定数字标题的级别时,可以查找数字标题相邻的定级标题的级别,根据相邻的定级标题的级别确定该数字标题的级别。具体例如:需要查找标题为“1”的标题级别,则向前查找已定级的定级标题“(一)”,并确定该定级标题的级别为二级,则确定标题为“1”的标题的级别为三级。可以理解的是,在进行调整标题的等级时,为先确定级别较高的标题的等级再确定级别较低的标题的等级,向带定级的数字标题的文档前面查找定级标题,能提高查找到数字标题最接近的定级标题的效率。在上述任一技术方案中,文档划分方法还包括:根据字形类别和预设字形类别顺序确定数字类标题的第二调整顺序;按照第二调整顺序,根据定级标题的级别和排列顺序依次确定每个字形类别的数字类标题的级别。在该技术方案中,根据字形信息将数字类标题分为多种字形类别,对多种字形类别设置相应的第二调整顺序,在对数字类标题进行定级时,按照第二调整顺序对每种不同的字形类别的数字标题进行定级。按照文档的标题的字形使用习惯对多种字形类别进行设置第二调整顺序。通过第二调整顺序对不同字形类别的数字类标题进行调整,实现了按照级别高低依次进行调整,提高了级别调整的效率。可以理解的是,数字标题包括“一”、“(一)”、“1”、“(1)”、“1)”这几种,则根据文档中的使用习惯对第二调整顺序进行设置,具体例如:如果文档中习惯将汉字的数字标题设置在前面,则按照“一”、“(一)”、“1”、“(1)”、“1)”做为第二调整顺序。在上述任一技术方案中,文档划分方法还包括:根据预设标题级别对每个标题的级别进行调整。在该技术方案中,对从文档中提取的标题的级别进行统计和调整,在调整完成的级别可能存在缺级的问题,则将缺少的等级删除,并依次对后面较低的级别进行提升级别,使文档中的标题更加准确,使分级后的文档本文档来自技高网...

【技术保护点】
1.一种文档层级划分方法,其特征在于,包括:/n获取文档中的标题,并提取所述标题的文本特征;/n根据所述文本特征对所述标题进行分类,以确定标题类别;/n根据所述标题类别和排列顺序确定所述标题的级别;/n其中,所述文本特征包括:关键字信息、词义信息和字形信息。/n

【技术特征摘要】
1.一种文档层级划分方法,其特征在于,包括:
获取文档中的标题,并提取所述标题的文本特征;
根据所述文本特征对所述标题进行分类,以确定标题类别;
根据所述标题类别和排列顺序确定所述标题的级别;
其中,所述文本特征包括:关键字信息、词义信息和字形信息。


2.根据权利要求1所述的文档层级划分方法,其特征在于,所述根据所述文本特征对所述标题进行分类的步骤,具体包括;
所述标题的所述词义信息不符合预设词义确定所述标题为未定级标题;
根据所述关键字信息对所述未定标题进行分类,以确定项目类标题和数字类标题;
根据所述字形信息对所述数字类标题进行分类,以确定所述数字类标题的字形类别。


3.根据权利要求2所述的文档层级划分方法,其特征在于,所述根据所述标题类别和排列顺序确定所述标题的级别的步骤包括:
根据所述标题类别确定对所述未定级标题的第一调整顺序;
按照所述第一调整顺序,根据所述排列顺序依次确定所述项目类标题和所述数字类标题的级别。


4.根据权利要求3所述的文档层级划分方法,其特征在于,
所述第一调整顺序为确定所述项目类标题的级别后确定所述数字类标题的级别。


5.根据权利要求4所述的文档层级划分方法,其特征在于,所述确定所述项目类标题的级别的步骤,具体包括:
根据所述排列顺序对所述项目...

【专利技术属性】
技术研发人员:魏超鹏黄媞
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1