本发明专利技术实施例公开了一种EPUB文档的校对方法及装置,涉及文档校对技术,为提高对EPUB文档校对的准确性和校对效率而发明专利技术。一种EPUB文档的校对方法,包括:获取待校对EPUB文档中符合XML规范的目标文档;利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容;根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。本发明专利技术实施例主要用于EPUB文档的校对技术中。
【技术实现步骤摘要】
本专利技术涉及文档校对技术,尤其涉及一种EPUB文档的校对方法及装置。
技术介绍
随着传统纸质媒介数字化的快速发展,电子书产业前景诱人。在电子书数量不断提升的同时,电子书的质量问题也日渐凸显。传统书刊质量主要依赖作者、编辑及校对人员的努力,而计算机校对技术则可以很大程度上提升校对人员的校对效率。现有的校对技术主要可分为两类一是附带型校对,如Microsoft Word, WPS等软件自带的拼写和语法检查功能。二是专业型校对,如WhiteSmoke、黑马校对软件等。这些校对软件目前可适用于word、pdf、ps等格式的文件。 EPUB(electronic publication,电子出版物)作为一种自由的电子书开放标准,已逐步成为数字图书的主流格式。但是,由于EPUB文档的特殊结构等原因,使得现有技术中的校对技术不适用于EPUB文档的校对,从而使得对EPUB文档的校对错误率很高,校对效率低下。因此,急需开发一种适用于EPUB文档的校对方案。
技术实现思路
本专利技术实施例提供一种EPUB文档的校对方法及装置,以提高对EPUB文档校对的准确性和校对效率。本专利技术实施例采用如下技术方案一种EPUB文档的校对方法,包括获取待校对EPUB文档中符合XML规范的目标文档;利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容;根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。一种EPUB文档的校对装置,包括文档获取单元,用于获取待校对EPUB文档中符合XML规范的目标文档;文档处理单元,用于利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容;文档校对单元,用于根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。本专利技术实施例提供的EPUB文档的校对方法及装置,对获取的待校对EPUB文档中符合XML (Extensible Markup Language,可扩展标记语言)规范的目标文档的结构进行分析,根据其标签构造所述目标文档的文档结构树,在所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容,而后根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。由于EPUB文档是严格符合XML规范的文件,其中包含了较多的结构信息,而本专利技术实施例正是基于EPUB文档的文档结构进行校对的,也即在对EPUB文档进行校对的过程中充分考虑到了它的文档结构因素,因此,利用本专利技术实施例的方法提高了对EPUB文档校对的准确性和校对效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I为本专利技术实施例EPUB文档的校对方法的流程图;图2为按照本专利技术实施例中方法建立文档结构树后,各节点的节点结构信息示意图; 图3为本专利技术实施例中某文档校对前的部分内容的示意图;图4为本专利技术实施例中,将图3所示文档内容进行校对并写入校对结果信息后的示意图;图5为本专利技术实施例中写入有校对信息后的文档结构树的示意图;图6为本专利技术实施例的EPUB文档的校对装置的示意图;图7为本专利技术实施例的EPUB文档的校对装置的又一示意图;图8为本专利技术实施例的EPUB文档的校对装置的又一示意图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了提高对EPUB文档校对的准确性,本专利技术实施例的EPUB文档的校对方法包括获取待校对EPUB文档中符合可扩展标记语言XML规范的目标文档,利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容。然后,根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。由于EPUB文档是严格符合XML规范的文件,其中包含了较多的结构信息,而本专利技术实施例中正是基于EPUB文档的文档结构进行校对的,也即在对EPUB文档进行校对的过程中充分考虑到了它的文档结构因素,因此,利用本专利技术实施例的方法提高了对EPUB文档校对的准确性和校对效率。以下结合实施例一详细描述一下本专利技术实施例的EPUB文档的校对方法的具体过程。如图I所示,本专利技术实施例EPUB文档的校对方法包括步骤11、打开待校对的EPUB文档,读取EPUB文档中的各个符合XML规范的文档。步骤12、对所述文档进行XML规范性校正,以进一步确保所述文档符合XML规范。如果经过校正确定所述文档符合XML规范,在此实施例中将其作为符合XML规范的目标文档。如果经过校正确定所述文档不符合XML规范,通过对其进行XML规范性校正,使其符合XML规范,也可将其作为符合XML规范的目标文档。也就是说,对于该目标文档而言,它需要是符合XML规范的文档,例如其可以为符合XML规范的.html文档或者符合XML规范的.xml文档。 步骤13、利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容。以.html文档为例,根据现有技术的内容,.html文档中包含有标签以及该标签对应的纯文本内容。因此,在此实施例中,就可以.html文档的标签和其对应的纯文本内容为基础构造文档结构树。首先,分别获取所述目标文档中各标签对应的节点,并判断该节点是否对应有纯文本内容,并在所述节点对应有纯文本内容时获取所述节点对应的纯文本内容。然后,确定该节点对应的标签是否包含有下一级标签。如果所述节点对应的标签包括有下一级标签,将所述节点作为父节点,将所述下一级标签对应的节点作为所述节点的子节点,并在所述子节点对应有纯文本内容时获取所述子节点对应的纯文本内容。最后,根据确定的父节点和子节点以及所述父节点和所述子节点对应的纯文本内容构造所述文档结构树。而在此实施例中,对于没有对应的纯文本内容的标签,只需将其作为文档结构树中的父节点或者子节点,校对时也无需对这种类型的父节点或者子节点进行校对。按照上述方法,将.html文档中所有的标签以及其对应的纯文本内容都表示在文档结构树中。例如,图2所示为按照上述方法建立文档结构树后,各节点的结构信息示意图。在该文档结构树中,记录有节点ID,节点名,节点属性对,节点文本,父节点的ID,子节点的ID等节点结构信息。步骤14、根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。根据文档结构树中的各父节点和各子节点,对其对应的纯文本内容进行校对。步骤15、将所述各节点对应本文档来自技高网...
【技术保护点】
一种EPUB文档的校对方法,其特征在于,包括:获取待校对EPUB文档中符合可扩展标记语言XML规范的目标文档;利用所述目标文档的标签构造所述目标文档的文档结构树,其中所述文档结构树中包括所述目标文档中各节点的结构信息和所述各节点对应的纯文本内容;根据所述文档结构树对所述各节点对应的纯文本内容进行校对,以实现对所述待校对EPUB文档的校对。
【技术特征摘要】
【专利技术属性】
技术研发人员:吴文元,陈峻峰,
申请(专利权)人:汉王科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。