The invention discloses a method and a device for extracting a file, which relates to the technical field of computer. One embodiment of the method includes: obtaining all the web pages files in the ePub file, marked on each page document leaves labels and tags within the leaf character; location is marked before the default extraction percentage of the last character of the characters, and then delete all the content after the last character the. The implementation method can solve the problem of precision flow document files from probation.
【技术实现步骤摘要】
一种抽取试读文件的方法和装置
本专利技术涉及计算机
,尤其涉及一种抽取试读文件的方法和装置。
技术介绍
随着移动互联网发展,越来越多的文档是数字文档,而信息与知识的重要性越来越高,版权的保护也越来越强,所以对于数字文档的分级阅读也越来越重要,在一些场合只能使用试读本(大概百分之二十),从而需要从技术上对数字文档实现自动拆出试读文件。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:根据流式文档的网页文件个数的百分比拆分,对于试读文件的百分比的控制比较粗,尤其部分章节文件比较大的时候,其抽取出来的试读文件可能非常不合理。
技术实现思路
有鉴于此,本专利技术实施例提供一种抽取试读文件的方法和装置,能够解决流式文档抽取试读文件的精度问题。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种抽取试读文件的方法,包括获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记;定位前预设抽取百分比的被标记字符中的最后一个字符,然后删除所述最后一个字符后的所有内容。可选地,所述获得ePub文件中的所有网页文件,包括:解压ePub文件,获得ePub文件中OPF文件的路径;根据所述路径,读取OPF文件,获得所有网页文件。可选地,所述定位前预设抽取百分比的被标记字符中的最后一个字符,包括:按顺序在已标记的所有字符中,查找前预设抽取百分比的被标记字符中的最后一个字符,获取所述最后一个字符的标记;根据所述最后一个字符的标记,定位所述最后一个字符在对应的网页文件中的位置。可选地,删除所述最后一个字符后的所有内容之后,还包括:修改 ...
【技术保护点】
一种抽取试读文件的方法,其特征在于,包括:获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记;定位前预设抽取百分比的被标记字符中的最后一个字符,然后删除所述最后一个字符后的所有内容。
【技术特征摘要】
1.一种抽取试读文件的方法,其特征在于,包括:获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记;定位前预设抽取百分比的被标记字符中的最后一个字符,然后删除所述最后一个字符后的所有内容。2.根据权利要求1所述的方法,其特征在于,所述获得ePub文件中的所有网页文件,包括:解压ePub文件,获得ePub文件中OPF文件的路径;根据所述路径,读取OPF文件,获得所有网页文件。3.根据权利要求1所述的方法,其特征在于,所述定位前预设抽取百分比的被标记字符中的最后一个字符,包括:按顺序在已标记的所有字符中,查找前预设抽取百分比的被标记字符中的最后一个字符,获取所述最后一个字符的标记;根据所述最后一个字符的标记,定位所述最后一个字符在对应的网页文件中的位置。4.根据权利要求1所述的方法,其特征在于,删除所述最后一个字符后的所有内容之后,还包括:修改OPF文件中的manifest文档和spine文档内容;其中,OPF文件中包括了manifest文档和spine文档,manifest文档为记录OPF文件中的文件清单,spine文档为记录OPF文件中所有网页文件的顺序。5.根据权利要求1-4任一所述的方法,其特征在于,删除所述最后一个字符后的所有内容之后,还包括:将删除了所述最后一个字符后的所有内容的ePub文件进行压缩,然后将压缩后的ePub文件进行重命名并保存。6.一种抽取试读文件的装置,其特征在于,包括:标记模块,用于获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记;定位模块,用于...
【专利技术属性】
技术研发人员:莫文,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。