自动切割章节方法技术

技术编号:13800862 阅读:26 留言:0更新日期:2016-10-07 06:57
本发明专利技术公开一种自动切割章节方法,其适用于一数码文章,先识别数码文章的数个段落的样式组合。接着,计算每一不同的样式组合的段落的一个或一个以上的段落特征,段落特征可为段落分散度、字号大小、平均字数、平均段落间距或其任意组合。再根据每一段落特征,分别排名样式组合。续而可分别根据各样式组合对应每一段落特征的排名,计算一加权平均值。再选取加权平均值排名第一者的段落为数个候选章节段落。最后根据候选章节段落切割数码文章为数个章节。

【技术实现步骤摘要】

本专利技术是有关于一种切割章节方法,特别是一种适用于数码文章的自动切割章节方法
技术介绍
随着科技的进步,手持式显示装置(如平板电脑、手机)已普及于人们的生活周遭。人们常使用此等手持显示装置浏览网页、阅读数码出版的书籍。因此,数码书籍的需求量大增,使得出版社和素人作者开始考虑在出版传统纸本书籍之外,亦可踏入数码出版之门。为了让读者方便掌握书籍内容的全貌,往往书籍编排上会设置目录页。虽然,目前已有许多文书编辑软件均具有章节编辑的功能(如微软的WORD软件),然而不黯操作此功能的作者仍不在少数。若数码文章未带有章节编辑的设定,出版者或作者需要重新找出各个章节的标题及其所在页码,并另行编辑目录,将造成出版者与作者的困扰与延长出版准备时间。因此,若能辅助未设定章节编辑的数码文章自动产生出章节目录,将能减缩数码出版的准备时程。
技术实现思路
鉴于以上的问题,本专利技术在于提供一种自动切割章节方法,藉以解决先前技术所存在未带有章节设定的数码文章需要劳心劳力重新编辑章节的问题。本专利技术的一实施例提供一种自动切割章节方法,适用于一数码文章,先识别数码文章的数个段落的样式组合。接着,计算每一不同的样式组合的段落的一个或一个以上的段落特征,段落特征可为段落分散度、字号大小、平
均字数、平均段落间距或其任意组合。再根据每一段落特征,分别排名样式组合。续而可分别根据各样式组合对应每一段落特征的排名,计算一加权平均值。再选取加权平均值排名第一者的段落为数个候选章节段落。最后根据候选章节段落切割数码文章为数个章节。于此,样式组合可包括字号大小、加粗、倾斜、首行缩进、对齐方式、下划线或其任意组合。在一实施例中,可先统计各样式组合的段落的重复次数,再删除仅有一个段落的样式组合,以及删除具有最多数量的段落的样式组合。甚者,还可删除平均字数大于一字数门槛值的样式组合,并删除平均字数小于或等于一字的样式组合。藉此,可预先过滤不会是章节标题的段落,以减轻后续计算段落特征的负荷。因此,前述计算每一不同的样式组合的段落的一个或一个以上的段落特征的步骤,是以删除后所剩余的样式组合进行统计。在一实施例中,当段落特征包含段落分散度时,可先平均切分段落为数个群组,再计算不同的样式组合的段落位于群组的所占比例,藉以计算出各个段落的段落分散度。在一实施例中,根据每一种段落特征的类型,分别针对样式组合进行排名,具体而言,若段落特征的类型为段落分散度,则段落分散度由大到小排名;若段落特征的类型为字号大小,则字号大小由大到小排名;若段落特征的类型为平均字数,则平均字数根据对于一预设字数的差由小到大排名;若段落特征的类型为平均段落间距,则平均段落间距由大到小排名。在一实施例中,于切割完章节后还可储存所切割的章节为多个文件档案。根据本专利技术的自动切割章节方法,应用于数码文章,可自动识别出章节标题在数码文章中的位置(页数、行数),而可据以产生目录内容。附图说明图1为本专利技术的一实施例的自动切割章节方法流程图。图2为本专利技术一实施例的数码文章的示意图。图3为本专利技术一实施例的段落分散度示意图。【符号说明】200:数码文章210:章标题220:节标题230:内文段落S110:识别数码文章的数个段落的样式组合S120:计算每一不同的样式组合的段落的一个或一个以上的段落特征,段落特征为段落分散度、字号大小、平均字数、平均段落间距或其任意组合S130:根据每一段落特征,分别排名样式组合S140:分别根据各样式组合对应每一段落特征的排名,计算一加权平均值S150:选取加权平均值排名第一者的段落为数个候选章节段落S160:根据候选章节段落切割数码文章为数个章节具体实施方式请参阅图1,为本专利技术的一实施例的自动切割章节方法流程图。所述自动切割章节方法的适用对象为数码文章。所述数码文章即为支援样式设定的数码文本文件,例如HTML(HyperText Markup Language)、微软(Microsoft)公司的WORD文件、奥多比系统(Adobe Systems)公司的PDF文件、富文字格式文件(RTF文件)等。此些数码文字文件可由文书软件编辑而成,亦可由书籍扫描图档文件经文字辨识(如光学字元识别技术,OCR)后所生成。有关如何生成数码文本文件,吾人已于台湾第103116324号专利技术专利申请案「流式电子书之产生方法及网站系统」说明,以下将着重于如何根据数码文本文件的内容自动区分出各个章节来说明。图2为本专利技术一实施例的数码文章200的示意图。如图2所示,数码文章200包括数个个段落,段落可为章段落210、节段落220及内文段落230。但本专利技术的实施例的段落非仅以此三种段落类型为限,亦可能仅有章段落
210及内文段落230,或者具有更多种段落类型(如小节段落)。一般而言,相同的段落类型会有共同或相似的样式组合。样式组合可包括但不限于字号大小、加粗、倾斜、首行缩进、对齐方式(如靠左对齐、居中对齐、靠右对齐)、下划线或其任意组合。因此,藉由识别各段落类型的数量、字数及分布情形,将可找出候选章节段落(意即可能为章节段落者)。在此,本说明书文中所指的「任意组合」可为其中部分(其中一个或一个以上)或全部。以样式组合为例,可仅为字号大小,亦可为字号大小结合其他参数(如对齐方式)。如图2所示,于本实施例中,章段落210为居中的加粗文字,且字号大小为18;节段落220为靠左的文字,字号大小为16。为了使图式清楚呈现,在此未绘示内文段落230的文字内容,仅以填满斜线的方框表示一个内文段落230。一个内文段落230可包含数行文字。于此,内文段落230为靠左且缩进两字的文字,且字号大小为12。复参阅图1,于步骤S110中,先识别数码文章200的数个段落的样式组合。于是,可辨识出数码文章200中具有前述三种段落类型。接着,于步骤S120中,计算每一不同的样式组合的段落的一个或一个以上的段落特征,段落特征可为段落分散度、字号大小、平均字数、平均段落间距或其任意组合。平均字数为同一个段落类型的段落的字数的平均值。段落间距系指段落与其前后段落之间距;平均段落间距则为同一个段落类型的段落的所述间距的平均。段落分散度系指各个段落类型的多个段落在数码文章200中的分散程度。一般而言,书籍的章节不会过度密集于某一区段,因此段落分散度是识别章节段落的其中一个重要指标。如图3所示,为本专利技术一实施例的段落分散度示意图。段落分散度的计算,是先平均切分段落为数个群组,再计算不同的样式组合的段落位于群组的所占比例,藉以计算出各个段落的段落分散度。若将数码文章200区分为N个等分,N为大于1的正整数。于此,数码文章200区分为五等分(由四条链线所区分)。可以看到,内文段落230的分布最不平均,而节段落220的分布最为平均,章段落210则次之。因此,通过段落分散度,可优先排除不会是章节段落者。然而,欲找出哪一个段落类型为章段落210,何者为节
段落220,则可配合其他段落特征(如字号大小)综合评估。因此,于步骤120之后,根据每一段落特征,分别排名样式组合(步骤S130)。若段落特征的类型为段落分散度,则段落分散度由大到小排名。若段落特征的类型为字号大小,则字号大小由大到小排名。若段落特征的类型为平均字数,则平均字本文档来自技高网
...

【技术保护点】
一种自动切割章节方法,适用于一数码文章,其特征在于,该自动切割章节方法包括:识别该数码文章的的数个段落的样式组合;计算每一不同的该样式组合的该些段落的一个或一个以上的段落特征,该段落特征为段落分散度、字号大小、平均字数、平均段落间距或其任意组合;根据每一该段落特征,分别排名该些样式组合;分别根据各该样式组合对应每一该段落特征的排名,计算一加权平均值;选取该加权平均值排名第一者的该些段落为数个候选章节段落;及根据该些候选章节段落切割该数码文章为数个章节。

【技术特征摘要】
2014.08.18 TW 1031283601.一种自动切割章节方法,适用于一数码文章,其特征在于,该自动切割章节方法包括:识别该数码文章的的数个段落的样式组合;计算每一不同的该样式组合的该些段落的一个或一个以上的段落特征,该段落特征为段落分散度、字号大小、平均字数、平均段落间距或其任意组合;根据每一该段落特征,分别排名该些样式组合;分别根据各该样式组合对应每一该段落特征的排名,计算一加权平均值;选取该加权平均值排名第一者的该些段落为数个候选章节段落;及根据该些候选章节段落切割该数码文章为数个章节。2.如权利要求1所述的自动切割章节方法,其特征在于,更包括:统计各该样式组合的该段落的重复次数;删除仅有一个该段落的该些样式组合;及删除具有最多数量的该段落的该样式组合。3.如权利要求2所述的自动切割章节方法,其特征在于,该计算每一不同的该样式组合的该些段落的一个或一个以上的段落特征的步骤是以删除后所剩余的该些样式组合进行统计。4.如权利要求1所述的自动切割章节方法,其特征...

【专利技术属性】
技术研发人员:崔殷豪
申请(专利权)人:葆光信息有限公司
类型:发明
国别省市:新加坡;SG

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1