【技术实现步骤摘要】
一种文档标题层级的分析方法、装置及服务器
本申请涉及自然语言处理
,尤其涉及一种文档标题层级的分析方法、装置及服务器。
技术介绍
电子文档,例如PDF文档、word文档、RTF(RichTextFormat,富文本格式)文档和HTML(HyperTextMarkupLanguage,超文本标记语言)文档等是各类计算机系统中承载信息的主要媒体形式,被广泛使用。因此,从电子文档中提取有价值的信息成为了近年来自然语言处理
的研究热点。以从电子文档中提取文档标题并确定标题层级为例,目前常采用的是基于规则识别标题的方法。这种方法根据标题的文本样式与正文的文本样式的差别,为标题制定了一些提取规则,利用提取规则从电子文档中提取标题并确定标题层级。但是,这种基于规则的方法对规则的制定有较高的要求,并且规则之间容易出现冲突,导致标题的识别准确率难以提高。另外,基于规则的方法不具有普适性,当不同的电子文档的文本样式多种多样时,提取规则必须分别对应制定,开发成本较高。另外,一些电子文档的格式不规范(例如:通过扫描和影印形成的P ...
【技术保护点】
1.一种文档标题层级的分析方法,其特征在于,包括:/n为文档的每个标题分配标题ID,所述标题ID根据所述标题在文档中的顺序递增;/n根据所述标题的字符特征确定每个所述标题的类别,并确定每个所述标题在其所属类别中的排列号,所述排列号根据所述标题在所属类别中的顺序递增;/n根据所述标题的标题ID、类别和排列号,确定每个所述标题的上位标题ID,所述上位标题ID是所述标题的上位标题的标题ID;/n根据所述上位标题ID确定所述标题之间的领属关系;/n根据所述标题之间的领属关系确定每个所述标题的层级。/n
【技术特征摘要】
1.一种文档标题层级的分析方法,其特征在于,包括:
为文档的每个标题分配标题ID,所述标题ID根据所述标题在文档中的顺序递增;
根据所述标题的字符特征确定每个所述标题的类别,并确定每个所述标题在其所属类别中的排列号,所述排列号根据所述标题在所属类别中的顺序递增;
根据所述标题的标题ID、类别和排列号,确定每个所述标题的上位标题ID,所述上位标题ID是所述标题的上位标题的标题ID;
根据所述上位标题ID确定所述标题之间的领属关系;
根据所述标题之间的领属关系确定每个所述标题的层级。
2.根据权利要求1所述的方法,其特征在于,所述根据所述标题的标题ID、类别和排列号,确定每个所述标题的上位标题ID,包括:
根据所述排列号确定每个类别的首标题,所述首标题是每个类别中排列号最小的标题;
根据所述标题在文档中的顺序确定每个所述首标题的上位标题ID,所述上位标题ID是所述首标题的前一个标题的标题ID;
获取所述首标题的第一同位标题,并将所述首标题的上位标题ID作为对应的所述第一同位标题的上位标题ID,所述第一同位标题是与所述首标题位置相邻并且类别相同的标题。
3.根据权利要求2所述的方法,其特征在于,还包括:
如果根据所述标题在文档中的顺序确定所述首标题是文档中的第一个标题,则所述首标题的上位标题ID为预设起始值。
4.根据权利要求2或3所述的方法,其特征在于,还包括:
对于每个类别中除了所述首标题以外的非首标题,按照排列号递增的顺序,分别获取每个所述非首标题的第二同位标题,并将所述第二同位标题的上位标题ID作为对应的所述非首标题的上位标题ID,所述第二同位标题是位于所述非首标题之前的与所述非首标题最邻近并且类别相同的标题。
5.根据权利要求4所述的方法,其特征在于,所述根据所述上位标题ID确定所述标题之间的领属关系,包括:
根据所述上位标题ID判断每个所述标题与其上位标题之间是否存在其他同级上位标题,所述同级上位标题的上位标题ID与所述标题的上位标题的上位标题ID相同;<...
【专利技术属性】
技术研发人员:任宁,晋耀红,李德彦,
申请(专利权)人:中科鼎富北京科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。