一种面向军工科研生产数据的字符识别方法及系统技术方案

技术编号:31917175 阅读:27 留言:0更新日期:2022-01-15 12:59
本发明专利技术实施例提供一种面向军工科研生产数据的字符识别方法包括:获取基于预处理后的军工科研生产数据,采用文本检测技术框选出图像的文本区域,对文本区域进行字符识别后输出的每个字符的初始识别结果以及识别准确率;获取被抽取字符所对应的文本区域的初始图像,基于预设判别标准,通过预设辨别模块初始图像进行判别;若预设辨别模块的判别结果与初始识别结果一致,则确定初始识别结果正确;若预设辨别模块的判别结果与初始识别结果不一致,则确定初始识别结果错误;被抽取字符的抽取概率基于文档识别要求、字符数量、每个字符的识别准确率以及识别错误频次确定。结合文档识别要求和字符的识别准确率,随机抽取字符下进行识别,提升校对效率。提升校对效率。提升校对效率。

【技术实现步骤摘要】
一种面向军工科研生产数据的字符识别方法及系统


[0001]本专利技术涉及数据处理领域,特别涉及一种面向军工科研生产数据的字符识别方法及系统。

技术介绍

[0002]在长期的军工科研生产过程中积累了大量的纸质文档,亟需对其进行历史数据抢救,采用自动化的方式快速对纸质文档进行识别,形成电子数据。由于军工科研生产是对准确率要求极高的工作,目前常用的OCR(Optical Character Recognition,光学字符识别)技术难以满足准确率要求。
[0003]目前,通用领域OCR技术较为成熟,如谷歌OCR、百度OCR,阿里OCR、汉王OCR等均提供了便捷的API接口,用户可直接调用实现OCR识别功能。另外,部分企业也针对垂直领域业务进行了定向优化,如票据识别、身份证识别、车牌号识别等。
[0004]当前,OCR技术已经比较成熟,调用相应的API接口可便捷地实现字符识别的功能,但是,OCR技术仅支持直接调用,用户无法直接查看每个字符的识别准确率;同时,现有技术识别准确率不高,针对军工科研生产领域,需在机器识别完后,还需要由专业人员本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向军工科研生产数据的字符识别方法,其特征在于,包括:获取基于预处理后的军工科研生产数据,采用文本检测技术框选出图像的文本区域,对所述文本区域进行字符识别后输出的每个字符的初始识别结果以及识别准确率;获取被抽取字符所对应的文本区域的初始图像,基于预设判别标准,通过预设辨别模块所述初始图像进行判别;若所述预设辨别模块的判别结果与所述初始识别结果一致,则确定所述初始识别结果正确;若所述预设辨别模块的判别结果与所述初始识别结果不一致,则确定所述初始识别结果错误;其中,所述被抽取字符的抽取概率基于文档识别要求、字符数量、每个字符的识别准确率以及识别错误频次确定。2.根据权利要求1所述的面向军工科研生产数据的字符识别方法,其特征在于,所述基于预设判别标准,通过预设辨别模块所述初始图像进行判别,包括:基于一次判别标准,分别通过第一辨别模块和第二判别模块对所述初始图像进行判别;若所述第一辨别模块和所述第二判别模块的第一判别结果一致,则,将所述第一判别结果与所述初始识别结果进行比对;若一致,则确定所述初始识别结果正确;若不一致,则确定所述初始识别结果错误。3.根据权利要求2所述的面向军工科研生产数据的字符识别方法,其特征在于,若所述第一辨别模块和所述第二判别模块的第一判别结果不一致,则,基于二次判别标准,分别通过第三辨别模块和第四判别模块对所述初始图像进行判别;若所述第三辨别模块和所述第四判别模块的第二判别结果一致,则,将所述第二判别结果与所述初始识别结果进行比对;若一致,则确定所述初始识别结果正确;若不一致,则确定所述初始识别结果错误。4.根据权利要求3所述的面向军工科研生产数据的字符识别方法,其特征在于,若所述第三辨别模块和所述第四判别模块的第二判别结果不一致,则,基于所述军工科研生产数据对应的领域类别和研究方向类别,确定三次判别标准,并基于所述三次判别标准,通过第五辨别模块对所述初始图像进行判别;将所述第五辨别模块的第三判别结果与所述初始识别结果进行比对;若一致,则确定所述初始识别结果正确;若不一致,则确定所述初始识别结果错误。5.根据权利要求4所述的面向军工科研生产数据的字符识别方法,其特征在于,所述被抽取字符的抽取概率基于文档识别要求、字符数量、每个字符的识别准确率以及识别错误频次确定,具体为:
其中,p
i
为抽取概率;d为文档识别要求,以...

【专利技术属性】
技术研发人员:谭艾迪李占郝威巍白雪李汉智王建峰王美慧姚晗魏双剑
申请(专利权)人:中国船舶工业综合技术经济研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1