【技术实现步骤摘要】
本专利技术涉及图像数字化领域,特别是一种古籍文字数字化录入方法。
技术介绍
传统的文字图像数字化,以古籍为例,先将古籍扫描成电子图像,然后由录入人员依照电子图像内容进行文字录入,最后对照原图进行排版,整理生成数字化文献,比如PDF文件,XML文件等。传统的图像数字化,存在一些弊端,录入人员可以看到整张古籍图像,信息安全度不高。驻厂人员进行文字录入,成本过高。对照原图手工排版,效率低下。
技术实现思路
针对现有技术中存在的问题,本专利技术提供了一种可以提高图像数字化信息安全度和效率的古籍文字数字化录入方法,本专利技术结合互联网技术解决传统数字化面临的难题。本专利技术的目的通过以下技术方案实现。一种古籍文字数字化录入方法,步骤包括:步骤1、对古籍进行全文扫描,将扫描图像碎片化,先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;利用OCR对图像进行切割,根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;所述文字单元格指文字所在的矩形 ...
【技术保护点】
一种古籍文字数字化录入方法,其特征在于,步骤包括:步骤1、对古籍进行全文扫描,将扫描图像碎片化,先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;利用OCR对图像进行切割,根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;所述文字单元格指文字所在的矩形块;步骤2、利用古籍字体数据库对所述文字单元格进行自动识别,当识别成功时则执行步骤5,否则执行步骤3;步骤3、采用众包模式针对未自动识别成功的文字单元格在录入平台进行录入,并对录入结果进 ...
【技术特征摘要】
1.一种古籍文字数字化录入方法,其特征在于,步骤包括:步骤1、对古籍进行全文扫描,将扫描图像碎片化,先用OCR定位文字区域,再识别出文字区域的行数和列数,根据文字区域和行列数,确定每个文字的单元格;利用OCR对图像进行切割,根据灰度值阈值,依次判定文字单元格内像素点是否为有效像素点,并统计文字单元格内有效像素点数量,再根据文字像素点阈值,判定文字单元格内是否为文字;所述文字单元格指文字所在的矩形块;步骤2、利用古籍字体数据库对所述文字单元格进行自动识别,当识别成功时则执行步骤5,否则执行步骤3;步骤3、采用众包模式针对未自动识别成功的文字单元格在录入平台进行录入,并对录入结果进行比较,校检:由两名作业人员对同一文字单元格进行录入,比较两名作业人员的录入结果,当录入结果一致时执行步骤4,否则由第三名作业人员进行校验再执行步骤4;步骤4、完善古籍字体数据库:根据古籍字体进行分类,将所述文字单元格及其对应的录入结果存入古籍数据库中,执行步骤5;步骤5、根据录入结果和坐标,还原位置,生成PDF文件:根据坐标,确定PDF上的单个文字矩形区域,将网上作业人员录入的文字存入PDF相应的位置;根据网上作业人员录入的文字数量,将图像坐标对应的矩形区域,切割成同等数量的区域,并将文字放入对应的位置。2.根据权利要...
【专利技术属性】
技术研发人员:王良君,禇正东,徐朝龙,王旭,
申请(专利权)人:江苏文心古籍数字产业有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。