The invention discloses a text recognition and proofreading method, which comprises: image pre-processing of document pictures; recognition of document pictures after image pre-processing through a multi-channel recognition engine to get the text recognition results; normalization of the recognized text results; automatic correction and recognition of the text. Content; manually identifying and identifying the contents of doubt. The error rate of the document recognition system with text as the main body is controlled at 0.005%0.3%, and the amount of text requiring manual editing can be controlled at 3%5% in the manual editing and proofreading work.
【技术实现步骤摘要】
一种文字识别编校方法
本专利技术涉及纸质资料数字化出版领域,同时适用于识别结果优化算法设计
,尤其涉及一种高可信的文字识别编校方法。
技术介绍
现有当前文字识别系统很多,存在识别后文字正确率低的问题,人工编校任务量大,需要较高的人工成本。因此,一个高可信的文字识别编校方法对于提高的文字识别可信度、降低人工编校成本有着非常重要的作用。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种高可信文字识别编校方法,该方法基于多路识别结果取最优结果的算法设计,解决识别后文字正确率低的问题,降低了人工编校成本。本专利技术的目的通过以下的技术方案来实现:一种文字识别编校方法,包括:A对文档图片进行图像预处理;B对图像预处理后的文档图片通过多路识别引擎对文档中的文字进行识别,得到文字识别结果;C对识别的文字结果进行“归一化”处理;D自动纠正识别的文字内容;E对识别存疑的内容进行人工编校。与现有技术相比,本专利技术的一个或多个实施例可以具有如下优点:对以文字为主体的文档的识别系统错误率控制在0.005%-0.3%,并且,在人工编校工作中,可将需要人工编校的文字量控制在3 ...
【技术保护点】
1.一种文字识别编校方法,其特征在于,所述方法包括:A对文档图片进行图像预处理;B对图像预处理后的文档图片通过多路识别引擎对文档中的文字进行识别,得到文字识别结果;C对识别的文字结果进行“归一化”处理;D自动纠正识别的文字内容;E对识别存疑的内容进行人工编校。
【技术特征摘要】
1.一种文字识别编校方法,其特征在于,所述方法包括:A对文档图片进行图像预处理;B对图像预处理后的文档图片通过多路识别引擎对文档中的文字进行识别,得到文字识别结果;C对识别的文字结果进行“归一化”处理;D自动纠正识别的文字内容;E对识别存疑的内容进行人工编校。2.如权利要求1所述的文字识别编校方法,其特征在于,所述A中图片图像预处理包括:对图像去背景色、纠偏、去噪、图像灰度化、图像二值化、去下划线、去边框及文字版面分析。3.如权利要求1所述的文字识别编校方法,其特征在于,所述步骤C具体包...
【专利技术属性】
技术研发人员:员战强,王长征,胡志强,师峰,刘文晓,梁询,
申请(专利权)人:山西同方知网数字出版技术有限公司,
类型:发明
国别省市:山西,14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。