【技术实现步骤摘要】
本专利技术涉及涉及文档电子化过程中文字识别及编改的系统,尤其涉及中文印刷体 识别与编改的系统。
技术介绍
在纸制文件电子化的过程中,OCR识别后的文字编改工作耗费了极大的人力,它是 一项人力密集性工作,劳动强度也很高。目前的应用现状是用普通OCR软件进行图像识 别,再进行一次编改校正,在保证每人8万字/8小时正常编改的速度下,编改的错误率通常 也会超过1/1000。
技术实现思路
为解决现有的人工编改效率低,错误率高的现状,本专利技术提供了一种文字识别、编 改的系统。该系统可以极大地提高人工编改的效率,降低成本,所述技术方案如下文字识别、编改的系统,包括双路识别单元,调用识别软件并采用外挂的方式对文档中的文字进行识别;流控处理单元,对待识别的文档图像进行段落切图,对识别后的不同的文字进行 编改校对并进行质检;后续加工处理单元,对其发现的错误进行改正并返还到发现错误的执行者。本专利技术提供的技术方案的有益效果是通过本专利技术对正常的汉字为主体的文档其编改的效率可以提高7倍以上,达到70 万字/8小时;同时编改错误率降低60 %,达到4/10000以下。附图说明图1是本 ...
【技术保护点】
文字识别、编改的系统,其特征在于,所述系统包括:双路识别单元,调用识别软件并采用外挂的方式对文档中的文字进行识别;流控处理单元,对待识别的文档图像进行段落切图,对识别后的不同的文字进行纵向编改及横向编改校对并进行质检;后续加工处理单元,对其发现的错误进行改正并返还到发现错误的执行者。
【技术特征摘要】
【专利技术属性】
技术研发人员:瞿洋,袁仁慧,梁洵,张振海,
申请(专利权)人:同方知网北京技术有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。