一种抽取试读文件的方法和装置制造方法及图纸

技术编号:16644807 阅读:24 留言:0更新日期:2017-11-26 17:16
本发明专利技术公开了抽取试读文件的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记;定位前预设抽取百分比的被标记字符中的最后一个字符,然后删除所述最后一个字符后的所有内容。该实施方式能够解决流式文档抽取试读文件的精度问题。

A method and apparatus for extracting a file

The invention discloses a method and a device for extracting a file, which relates to the technical field of computer. One embodiment of the method includes: obtaining all the web pages files in the ePub file, marked on each page document leaves labels and tags within the leaf character; location is marked before the default extraction percentage of the last character of the characters, and then delete all the content after the last character the. The implementation method can solve the problem of precision flow document files from probation.

【技术实现步骤摘要】
一种抽取试读文件的方法和装置
本专利技术涉及计算机
,尤其涉及一种抽取试读文件的方法和装置。
技术介绍
随着移动互联网发展,越来越多的文档是数字文档,而信息与知识的重要性越来越高,版权的保护也越来越强,所以对于数字文档的分级阅读也越来越重要,在一些场合只能使用试读本(大概百分之二十),从而需要从技术上对数字文档实现自动拆出试读文件。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:根据流式文档的网页文件个数的百分比拆分,对于试读文件的百分比的控制比较粗,尤其部分章节文件比较大的时候,其抽取出来的试读文件可能非常不合理。
技术实现思路
有鉴于此,本专利技术实施例提供一种抽取试读文件的方法和装置,能够解决流式文档抽取试读文件的精度问题。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种抽取试读文件的方法,包括获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记;定位前预设抽取百分比的被标记字符中的最后一个字符,然后删除所述最后一个字符后的所有内容。可选地,所述获得ePub文件中的所有网页文件,包括:解压ePub文件,获得ePub文件中OPF文件的路径;根据所述路径,读取OPF文件,获得所有网页文件。可选地,所述定位前预设抽取百分比的被标记字符中的最后一个字符,包括:按顺序在已标记的所有字符中,查找前预设抽取百分比的被标记字符中的最后一个字符,获取所述最后一个字符的标记;根据所述最后一个字符的标记,定位所述最后一个字符在对应的网页文件中的位置。可选地,删除所述最后一个字符后的所有内容之后,还包括:修改OPF文件中的manifest文档和spine文档内容;其中,OPF文件中包括了manifest文档和spine文档,manifest文档为记录OPF文件中的文件清单,spine文档为记录OPF文件中所有网页文件的顺序。可选地,删除所述最后一个字符后的所有内容之后,还包括:将删除了所述最后一个字符后的所有内容的ePub文件进行压缩,然后将压缩后的ePub文件进行重命名并保存。根据本专利技术实施例的另一个方面,还提供了一种抽取试读文件的装置,包括标记模块,用于获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记;定位模块,用于定位前预设抽取百分比的被标记字符中的最后一个字符;删除模块,用于删除所述最后一个字符后的所有内容。可选地,所述标记模块获得ePub文件中的所有网页文件时,包括:解压ePub文件,获得ePub文件中OPF文件的路径;根据所述路径,读取OPF文件,获得所有网页文件。可选地,所述定位模块定位前预设抽取百分比的被标记字符中的最后一个字符时,包括:按顺序在已标记的所有字符中,查找前预设抽取百分比的被标记字符中的最后一个字符,获取所述最后一个字符的标记;根据所述最后一个字符的标记,定位所述最后一个字符在对应的网页文件中的位置。可选地,所述删除模块,还用于:修改OPF文件中的manifest文档和spine文档内容;其中,OPF文件中包括了manifest文档和spine文档,manifest文档为记录OPF文件中的文件清单,spine文档为记录OPF文件中所有网页文件的顺序。可选地,所述删除模块,还用于:将删除了所述最后一个字符后的所有内容的ePub文件进行压缩,然后将压缩后的ePub文件进行重命名并保存。根据本专利技术实施例的另一个方面,还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。根据本专利技术实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。上述专利技术中的一个实施例具有如下优点或有益效果:因为采用对网页文件中纯字符的百分比划分以及对字符定位的技术手段,所以克服了流式文档抽取试读文件精度低的技术问题,进而达到显著提高试读本精度的技术效果。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是本专利技术实施例可以应用于其中的示例性系统架构图;图2是根据本专利技术实施例的抽取试读文件的方法的主要流程的示意图;图3是根据本专利技术可参考实施例的抽取试读文件的方法的主要流程的示意图;图4是根据本专利技术实施例的抽取试读文件的装置的主要模块的示意图;图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1示出了可以应用本专利技术实施例的抽取试读文件方法或抽取试读文件装置的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。需要说明的是,本专利技术实施例所提供的抽取试读文件方法一般由服务器105执行,相应地,抽取试读文件装置一般设置于服务器105中。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。图2是根据本专利技术实施例的抽取试读文件方法,如图2所示,所述抽取试读文件的方法包括:步骤S201,获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记。在实施例中,为了能够获得ePub文件中的网页文件,需要对ePub文件进行解压,解压后的ePub文件包括了container.xml文件,所述的container.xml文件描述了OPF文件的路径。由于所有的网页文件都存储在OPF文件中,所以需要根据路径获得OPF文件。需要说明的是,OPF文件中的网页文件至少为一个,一般一个章节为一个网页文件,在具有多个网页文件时网页文件之间具有顺序性。其中,网页文件为Html网页文件。进一步地本文档来自技高网...
一种抽取试读文件的方法和装置

【技术保护点】
一种抽取试读文件的方法,其特征在于,包括:获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记;定位前预设抽取百分比的被标记字符中的最后一个字符,然后删除所述最后一个字符后的所有内容。

【技术特征摘要】
1.一种抽取试读文件的方法,其特征在于,包括:获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记;定位前预设抽取百分比的被标记字符中的最后一个字符,然后删除所述最后一个字符后的所有内容。2.根据权利要求1所述的方法,其特征在于,所述获得ePub文件中的所有网页文件,包括:解压ePub文件,获得ePub文件中OPF文件的路径;根据所述路径,读取OPF文件,获得所有网页文件。3.根据权利要求1所述的方法,其特征在于,所述定位前预设抽取百分比的被标记字符中的最后一个字符,包括:按顺序在已标记的所有字符中,查找前预设抽取百分比的被标记字符中的最后一个字符,获取所述最后一个字符的标记;根据所述最后一个字符的标记,定位所述最后一个字符在对应的网页文件中的位置。4.根据权利要求1所述的方法,其特征在于,删除所述最后一个字符后的所有内容之后,还包括:修改OPF文件中的manifest文档和spine文档内容;其中,OPF文件中包括了manifest文档和spine文档,manifest文档为记录OPF文件中的文件清单,spine文档为记录OPF文件中所有网页文件的顺序。5.根据权利要求1-4任一所述的方法,其特征在于,删除所述最后一个字符后的所有内容之后,还包括:将删除了所述最后一个字符后的所有内容的ePub文件进行压缩,然后将压缩后的ePub文件进行重命名并保存。6.一种抽取试读文件的装置,其特征在于,包括:标记模块,用于获得ePub文件中的所有网页文件,以对每个网页文件中的叶子标签和叶子标签内的字符进行标记;定位模块,用于...

【专利技术属性】
技术研发人员:莫文
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1