【技术实现步骤摘要】
一种EPUB文件解析方法
本专利技术涉及文件的读取方法
,具体涉及EPUB格式的语义化,具体地说是将EPUB格式的书籍进行重构转化成json文件。
技术介绍
EPUB(Electronicpublication)格式文件,是一个自由的开放标准,属于一种可以"自动重新编排"的内容;也就是文字内容可以根据阅读设备的特性,以最适于阅读的方式显示。EPUB档案内部使用了XHTML或DTBook(一种由DAISYConsortium提出的XML标准)来展现文字、并以zip压缩格式来包裹档案内容。EPUB格式中包含了数位版权管理(DRM)相关功能可供选用。但是目前EPUB电子书数据存在大量冗余,不易提取和重复利用。而如果能在保留书籍信息的同时,将其转换成扩展性强,解析简单的Json格式,便将很容易转换成其他类型的文件,对于电子图书信息的转换和展示具有广阔的应用前景。现有的EPUB解析方案是基于epublib-core-latest.jar对EPUB格式文件进行解析。根据解析的信息生成文件头转换器、页面转换器和对象转换器,其 ...
【技术保护点】
1.一种EPUB文件解析方法,调用解压模块将EPUB文件改名转为zip压缩文件并对其进行解压,而后针对解压文件进行解析,其特征在于,所述解析方法包括如下步骤:/n(1)解析元信息:调用元信息解析模块解析META-INF文件中的container.xml文件,读取出电子书的根文件路径;根据根文件路径定位opf文件,解析opf文件中的元信息;/n(2)解析书籍主体内容:书籍主体内容包含在xhtml/html文件中,根据页面处理模块将xhtml/html文件进行分类,分类方法采用获取其文件根标签的epub-type属性和data-type属性,根据其值的不同来分类,分为封面、前言 ...
【技术特征摘要】
1.一种EPUB文件解析方法,调用解压模块将EPUB文件改名转为zip压缩文件并对其进行解压,而后针对解压文件进行解析,其特征在于,所述解析方法包括如下步骤:
(1)解析元信息:调用元信息解析模块解析META-INF文件中的container.xml文件,读取出电子书的根文件路径;根据根文件路径定位opf文件,解析opf文件中的元信息;
(2)解析书籍主体内容:书籍主体内容包含在xhtml/html文件中,根据页面处理模块将xhtml/html文件进行分类,分类方法采用获取其文件根标签的epub-type属性和data-type属性,根据其值的不同来分类,分为封面、前言部分、章节部分和后记部分;然后分别调用封面解析单元、前言解析单元、章节解析单元进行处理,将这三部分内容分别进行语义化;针对后记部分,则不进行处理;
(3)提取每章的主体内容:主体内容由若干节组成,每一节由一个section标签进行包裹,调用section标签解析单元进行处理。
2.如权利要求1所述的一种EPUB文件解析方法,其特征在于,Opf文件解析分为两部分,一是解析书籍元信息,二是解析书籍媒体文件路径。
3.如权利要求2所述的一种EPUB文件解析方法,其特征在于,书籍的元信息包含在名为metadata的标签之中,其中需解析的部分标签信息如下表:
书籍的媒体文件路径包含在名为manifest的标签中,每个item标签表示一个媒体文件,只解析属性media-type为“application/xhtml+xml”的item标签,从而获取所有xhtml/html文件的路径,解析的方法是调用元信息解析模块将opf文件构建为文档树,遍历处理metadata和manifest标签,提取元信息标签对应文本节点的值并存储到预定义的语义化Json结构中,xhtml和html文件路径则存储为实例变量。
4.如权利要求1所述的一种EPUB文件解析方法,其特征在于,封面解析单元的解析方法是直接定位的提取出该文...
【专利技术属性】
技术研发人员:黄希希,蒋芹,佘晓龙,徐磊,
申请(专利权)人:湖北大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。