文件目录的生成方法、装置、服务器及计算机存储介质制造方法及图纸

技术编号:15822779 阅读:33 留言:0更新日期:2017-07-15 04:57
本发明专利技术公开了一种文件目录的生成方法、装置、服务器及计算机存储介质。其中,方法包括:对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合;对文件的目录页进行分析,得到目录项文本;对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合;将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。利用本发明专利技术提供的技术方案,能够提升目录的规范性和准确性,保证生成的目录页更为准确,从而使用户能够充分地利用目录定位到相应的文本对象,给予用户正确地引导。

【技术实现步骤摘要】
文件目录的生成方法、装置、服务器及计算机存储介质
本专利技术涉及互联网
,具体涉及一种文件目录的生成方法、装置、服务器及计算机存储介质。
技术介绍
随着网络技术的发展,人们可以通过不同的设备、不同的途径获得各种各样的电子文件,这些电子文件极大地丰富了人们的工作和生活内容。很多时候,需要对电子文件进行重新排版,对于包含目录页的文件,由于目录初始设计并不规范,导致现有技术中不能准确地获取到目录项文本,从而导致根据目录项文本重新排版所生成的目录页并不准确,致使目录失去正确引导用户阅读、以及准确定位文本的作用。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文件目录的生成方法、装置、服务器和计算机存储介质。根据本专利技术的一个方面,提供了一种文件目录的生成方法,包括:对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合;对文件的目录页进行分析,得到目录项文本;对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对本文档来自技高网...
文件目录的生成方法、装置、服务器及计算机存储介质

【技术保护点】
一种文件目录的生成方法,包括:对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合;对文件的目录页进行分析,得到目录项文本;对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合;将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。

【技术特征摘要】
1.一种文件目录的生成方法,包括:对文件中除目录页以外的其他页面中的文本对象进行文字样式聚类处理,得到多个具有不同文字样式的文本对象集合;对文件的目录页进行分析,得到目录项文本;对于每个文本对象集合,将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合;将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。2.根据权利要求1所述的方法,其中,所述文字样式包括:文字字号和文字字体;所述将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页进一步包括:依据文字字号确定属于目录项的文本对象集合中文本对象的目录级别;依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。3.根据权利要求1所述的方法,其中,所述将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页进一步包括:依据属于目录项的文本对象集合中文本对象在文件中出现的初始偏移位置,确定属于目录项的文本对象集合中文本对象的目录级别;依据目录级别,将文本对象与该文本对象在文件中的文本偏移位置关联生成目录页。4.根据权利要求1-3任一项所述的方法,其中,所述将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配,根据模糊匹配结果,确定文本对象属于目录项的文本对象集合进一步包括:判断文本对象集合中与目录项文本的文字内容匹配的文本对象的项数与文本对象集合中文本对象的总项数的比率是否大于或等于预设比率阈值;若是,则确定文本对象属于目录项的文本对象集合。5.根据权利要求1-4任一项所述的方法,其中,在将该文本对象集合中文本对象分别与目录项文本进行文字内容模糊匹配之前,所述方法还包括:对于每个文本对象集合,将文本对象的总项数与...

【专利技术属性】
技术研发人员:孙上斌
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1