现代地方文献电子图书制作方法技术

技术编号:8959403 阅读:166 留言:0更新日期:2013-07-25 18:58
为了实现对具有复杂内容的现代地方志由纸质转为电子,并且能根据客户需求进行检索,本发明专利技术提供了一种现代地方文献电子图书制作方法,包括以下步骤:图像扫描,图像处理,PDF转换,版面分析识别校对,TXT排版并进行JPG插图索引,目录制作,XML文件制作,生成XML文件,XML质检。通过科学的步骤,提高了将纸质文本转化成电子文本的效率。通常情况下一本十万字的地方志由一个20人小组在一个星期内能完成。错误率在万分之一左右。完成的文稿都已经通过XML文件制成目录,方便查阅和检索。

【技术实现步骤摘要】

本专利技术涉及一种电子图书制作方法,尤其是对现代地方文献类书籍的电子图书的制作方法。
技术介绍
知识就是力量,千百年来,书籍一直是传承知识的载体。但是随着科技的进步,人们也慢慢发现纸质书籍的保藏是一个难题。主要原因在于纸由于制材关系容易损坏。导致纸张损坏的原因大致有以下几种:—,温度温度乃表示空气中冷热程度的指标,是物体热能的量度,热能是促进有机质文物变质的一种能量形式,当温度越高,原子,分子相撞的机会就越多,化学反应就加快,科学实验证明:在化学反应中,温度升高10°c,其反应速率将增加二倍,而对纸质,温度升高5°C,变质速率就会增加二倍,即使在高温下放置短时间,也会使纸变黄,发脆。从下表可以看出,温度越高,纸张半衰期越短,反之,温度越低,半衰期越长。温度忽高忽低,对纸质的保护也是不利的,温度忽高,蒸发到空气中的水汽量就增力口,空气就过於潮湿;反之,温度忽低,蒸发到空气中的水汽也就忽然减少,空气就过於乾燥。由於温度忽高忽低,则会造成纸张中的纤维忽胀,忽缩,而影响纸张纤维的抗张强度。二,湿度湿度是表示空气中水汽含量或乾湿的程度。潮湿的环境不仅会使纸张变潮而发生水解,而且会使耐水性差的字迹湮化褪色,模糊不清。还有利於微生物的生长繁殖,促使纸张霉烂,虫蛀,变质。另外会加速其它有害物质(如大气中酸性气体C02,NO2, SO2等),极易被潮湿纸张中的水份所吸收,形成腐蚀性更强的无机酸,以及明矾更易水解生成硫酸,而加速纸张的损坏。三,光照光对纸质的危害,一般认为是光的热作用与光化学作用造成的。对此,为了保护书籍,我们现在常用的方式是将书籍进行电子化处理,扫描。将书籍转为电子化。但是事实上在这个过程中,会有许多意想不到的事情发生。如电子扫描识别的精确度一直是个难以解决的问题。现有技术中虽然也有相关的专利,如深圳市点通数据有限公司就有公开号为CN101488126的专利技术专利《双语语句对齐方法及装置》用于提高版权对齐的效率;以及公开号CN101308491的《版面还原方法》专利技术专利用于提高版面位置的对应。但是在针对文字校对方面并没有突出的进步。而且电子书的查阅方式和纸质文本也不同,需要方便的链接等方式,现有技术中的扫描文件均无法满足这样的要求。文本的种类也很多,但是现代地方文献具有文字量大,数据、图案、文字表格混排等多种特点,而且对于文字、数字准确率的要求非常高,是转电子版本文件中难度较高的一种。而且转成电子文本后,又要满足便于查询检索等要求,后期制作要求高。但是优点在于现代地方文献纸质文本的纸质较好,适合现代化的扫描工具。
技术实现思路
为了实现对具有复杂内容的现代地方志由纸质转为电子,并且能根据客户需求进行检索,本专利技术提供了一种,包括以下步骤:步骤1.图像扫描,通过专业扫描仪将纸本地方文献扫描到电脑中,这样将纸件文献转化成电子图像;步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的文字、图片、注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理,确保图片整洁美观;步骤3.PDF转换,按目录最小组织结构采用HF图像格式进行封装;步骤4.版面分析识别校对,包括图像版面分析、文本OCR识别,文本校对,所述文本校对包括了横向校对和纵向校对,所述横向校对即逐行校对,所述纵向校对为逐一选择书本中所有不同的字,寻找这些字在文中出现的所有位置,--对比确认这些文字校对的是否正确;步骤5.TXT排版并进行JPG插图索引,包括对经所述步骤4识别产生的文本的TXT文件进行排版以及对文本中间的插图进行索引,确保JPG插图嵌套在文本中正确位置,并且索引准确;步骤6.目录制作,根据规则编制目录并完成目录标引,完成的文件生成目录文件;步骤7.XML文件制作,根据编制的目录文本和所述步骤5的TXT文本生成描述每本地方文献用于入库的X ML文件;步骤8.XML质检。检查针对每本文献生成的XML文件格式,包括书名、作者、出版社、正文、PDF路径等所有字段的检查,确保与原纸本文献的内容完全对应。优选的,所述步骤2中的纠偏工序中包括对文字的初步辨识;确认是扫描导致的倾斜后进行纠偏,纠偏后文字和水平方向的夹角不超过3度。这样转换过后能提高后期文本OCR识别的准确率,减轻后期校对的工作负担。其特征在于:所述纠偏工作完成后,将文字部分进行投影,该投影覆盖了一定的区域,该区域可以按比例放大和缩小,将该投影区域调整到和原稿等比大小后,将其四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。这样从版面上检验是否有遗漏或者缺少。这样也能检查出复制错误页的问题。优选的,所述步骤3中所述采用PDF图像格式进行封装;即封面后的插图封装成一个节点,命名为“冠图”,冠图之间允许插入有序、前言,冠图分为冠图1、冠图2 ;封底前的插图封装成一个节点,命名为“附图”;封面、冠图、目录、序、前言、题名页、版权页、扉页、编纂委员会等正文前面的内容按其标题单独封装HF ;对于封面、冠图、目录、题名页、版权页、扉页按照每个页面作为整张图片处理不需要OCR识别,用专业图像处理软件转成JPG上传至每本书相对应的JPG文件夹;对于序、前言、编纂委员会内容需要识别校对。优选的,所述步骤4中版面分析识别校对,即首先将原文的图片中的文字段落和图片分别进行版面分析,画上代表不同识别类型的区域框,所述版面分析工作完成后,进行OCR识别,所述OCR识别工作完成后,须将识别后的文本内容逐行进行横向校对。所述横向校对工作完成后,再进行纵向校对,即逐一选择书本中所有不同的字,寻找这些字在文中出现的所有位置,一一对比确认这些文字在文中的出现是否正确,确保文字的识别错误率要低于万分之一。优选的,所述步骤7中的XML文件制作过程为:将XML文件里图书中文名称、馆藏标识、一级目录、二级目录、名称、正文、PDF等所有字段都遵照书本客观录入,是简体字体的录入简体字体,是繁体字体的录入繁体字体;如果书本封面标题和题名页标题不一致,则取题名页标题;书本内容有“〈>”字符,在XML里采用“O”代替;书本内有注释内容,著录规则为:-(本页注释开始)-注释内容-(本页注释完)-有无法录入的生僻汉字用黑色实心方框代替;正文里的数学公式、化学分子式或方程式按插图处理,给出图片索引地址;有无法录入的特殊符号,如能用中文描述的,采用用中文文字表达;一份表格内容在第一页没有结束,在第二页有续表,如第二页上没有“续表” 二字,则增加“续表” 二字并录入在正文里,后加该表格的索引地址;书本的目录标题与正文标题不一致,录入目录标题。优选的,XML的目录级别只制作到三级,即一级目录、二级目录和名称。这样避免了过多的目录级别导致目录导航混乱。优选的,成套出版物在所述单本文件做完步骤8的质检工作后,还需要进行总检,并生成xml文件。这样使得检索更为方便。对于不需要进行校验,仅仅是扫描保存的现代地方文献电子图书制作方,包括以下步骤:步骤1.图像扫描,通过专业扫描仪将纸质地方文献扫描到电脑中,这样将纸件文本转化成图像;步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理;步骤3.PDF转换,整本文档来自技高网
...

【技术保护点】
现代地方文献电子图书制作方法,其特征在于:包括以下步骤:步骤1.图像扫描,通过专业扫描仪将纸本地方文献扫描到电脑中,这样将纸件文献转化成电子图像;步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的文字、图片、注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理,确保图片整洁美观;步骤3.PDF转换,按目录最小组织结构采用PDF图像格式进行封装;步骤4.版面分析识别校对,包括图像版面分析、文本OCR识别,文本校对,所述文本校对包括了横向校对和纵向校对,所述横向校对即逐行校对,所述纵向校对为逐一选择书本中所有不同的字,寻找这些字在文中出现的所有位置,一一对比确认这些文字校对的是否正确;步骤5.TXT排版并进行JPG插图索引,包括对经所述步骤4识别产生的文本的TXT文件进行排版以及对文本中间的插图进行索引,确保JPG插图嵌套在文本中正确位置,并且索引准确;步骤6.目录制作,根据规则编制目录并完成目录标引,完成的文件生成目录文件;步骤7.XML文件制作,根据编制的目录文本和所述步骤5的TXT文本生成描述每本地方文献用于入库的XML文件;步骤8.XML质检。检查针对每本文献生成的XML文件格式,包括书名、作者、出版社、正文、PDF路径等所有字段的检查,确保与原纸本文献的内容完全对应。...

【技术特征摘要】
1.现代地方文献电子图书制作方法,其特征在于:包括以下步骤: 步骤1.图像扫描,通过专业扫描仪将纸本地方文献扫描到电脑中,这样将纸件文献转化成电子图像; 步骤2.图像处理,所述图像处理步骤包括校对信息完整性,确保没有遗漏文本的文字、图片、注释等信息,对图像进行纠偏,确保图像位置正,以及图片去污处理,确保图片整洁美观; 步骤3.PDF转换,按目录最小组织结构采用TOF图像格式进行封装; 步骤4.版面分析识别校对,包括图像版面分析、文本OCR识别,文本校对,所述文本校对包括了横向校对和纵向校对,所述横向校对即逐行校对,所述纵向校对为逐一选择书本中所有不同的字,寻找这些字在文中出现的所有位置,一一对比确认这些文字校对的是否正确; 步骤5.TXT排版并进行JPG插图索引,包括对经所述步骤4识别产生的文本的TXT文件进行排版以及对文本中间的插图进行索引,确保JPG插图嵌套在文本中正确位置,并且索引准确; 步骤6.目录制作,根据规则编制目录并完成目录标弓I,完成的文件生成目录文件; 步骤7.XML文件制作,根据编制的目录文本和所述步骤5的TXT文本生成描述每本地方文献用于入库的XML文件; 步骤8.XML质检。检查针对每本文献生成的XML文件格式,包括书名、作者、出版社、正文、PDF路径等所有字段的检查,确保与原纸本文献的内容完全对应。2.如权利要求1所述 的现代地方文献电子图书制作方法,其特征在于:所述步骤2中的纠偏工序中包括对文字的初步辨识;确认是扫描导致的倾斜后进行纠偏,纠偏后文字和水平方向的夹角不超过3度。3.如权利要求1所述的现代地方文献电子图书制作方法,其特征在于:其特征在于:所述纠偏工作完成后,将文字部分进行投影,该投影覆盖了一定的区域,该区域可以按比例放大和缩小,将该投影区域调整到和原稿等比大小后,将其四个顶点和原稿位置一一校对,看是否能同时重合,然后检查每相邻两个顶点之间的投影边缘是否和原稿重合。4.如权利要求1所述的现代地方文献电子图书制作方法,其特征在于:所述步骤3中所述采用PDF图像格式进行封装;即封面后的插图封装成一个节点,命名为“冠图”,冠图之间允许插入有序、前言,冠图分为冠图1、冠图2 ;封底前的插图封装成一个节点,命名为“附图”;封面、冠图、目录、序、前言、题名页、版权页、扉页、编纂委员会等正文前面的内容按其标题单独封装TOF ;对于封面、冠图、目录、题名页、版权页、扉页按照每个页面作为整张图片处理不需要OCR识别,用专业图像处理软件转成JPG上传至每本书相对应的JPG文件夹;对于序、前言、编纂委员会内容需要识别校对。...

【专利技术属性】
技术研发人员:周小芳朱国明戚凌均
申请(专利权)人:杭州中元数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1