当前位置: 首页 > 专利查询>南京大学专利>正文

一种中文OCR后处理的无监督学习方法技术

技术编号:23315794 阅读:53 留言:0更新日期:2020-02-11 18:03
收集了来自法律领域2014年至2018年不同地区的卷宗扫描件,涵盖几十种分辨率,基于大量的法律卷宗数据,并结合法律文书,融入领域知识,来进行对中文OCR后处理的研究。基于经典模型以及成熟OCR(Tesseract、百度OCR),构建了OCR识别模型。获取大量多样性的Witnesses,免去人工的标注。基于OCR识别系统的结果,提出一种基于无监督的多输入OCR纠错方法,构建OCR纠错模型,可以避免人为的大量标记。实验结果表明,在我们的语料库上,提出的非监督的学习模型,在准确率上有一定的提高。也进一步表明了,采用这种多输入无监督的学习方法可以很好地对OCR的识别结果进行纠正。

An unsupervised learning method for Chinese OCR post-processing

【技术实现步骤摘要】
一种中文OCR后处理的无监督学习方法
本专利技术涉及一种法条推荐方法,具体涉及一种中文OCR后处理的无监督学习方法,属于自然语言处理,图像处理

技术介绍
近年来,最高人民法院围绕全面依法治国战略部署,大力推进人民法院信息化建设。法律卷宗是整个案件审判流程的纸质记录文档,其一般都需要进行电子扫描存档。其内容涵盖很多,包括立案、拘留、逮捕、取保候审等强制措施手续、起诉意见书等涉及程序性的文书资料。也包括案件证据,包括物证照片,证人,被害人的询问笔录,鉴定意见,现场勘验报告等。法律卷宗的数字化,是促进法律智能化,在线化的关键步骤。但是受各种因素影响,比如图片质量较差,或者复杂的页面结构等,识别的结果有时并不是很好。进一步导致卷宗信息的提取受到影响。OCR一直是图形识别领域一个重要的研究方向。其概念是来自于1929年,德国科学家Tausheck,定义为将印刷体的字符从纸质文档中识别出来。其中数据和方法是图像处理领域最重要的两个驱动因子,甚至是驱动整个人工智能前进的重要因素。数据方面,目前有很多公开的数据集,同时大量的比赛也为O本文档来自技高网...

【技术保护点】
1.一种中文OCR后处理的无监督学习方法,其特征在于包含以下步骤:/n步骤(1)数据收集;/n步骤(2)数据预处理;/n步骤(3)OCR识别模型构建;/n步骤(4)无监督纠错模型构建;/n步骤(5)实验结果。/n

【技术特征摘要】
1.一种中文OCR后处理的无监督学习方法,其特征在于包含以下步骤:
步骤(1)数据收集;
步骤(2)数据预处理;
步骤(3)OCR识别模型构建;
步骤(4)无监督纠错模型构建;
步骤(5)实验结果。


2.根据权利要求1所述的一种中文OCR后处理的无监督学习方法,其特征在于步骤(1)中的数据收集,包括卷宗扫描件数据,法律文书数据,程序批量生成数据,构建训练语料。


3.根据权利要求1所述的一种中文OCR后处理的无监督学习方法,其特征在于步骤(2)中数据预处理,具体子步骤包括:
步骤(2.1)对于卷宗数据进行二值化操作。经过二值化后的卷宗图片中背景色(纸张颜色)呈白色,前景色(文字颜色)呈黑色,且的大部分噪点、阴影和其他干扰被去除,通过二值化可以使得图片质量变得干净,方便后续的操作;
步骤(2.2)直线去除。部分图片种可能会存在下划线或者表格框线,因为这些直线可能会影响后续的文字切分效果。所以首先去除这些直接是有必要的;
步骤(2.3)投影直方图。我们使用投影直方图进行字符切分和行切分,投影直方图沿着指定方向累加图中的像素值。沿水平和垂直方向累加分别可以得到水平投影直方图和垂直投影直方图。水平投影直方图可以获得行切分,再进一步使用...

【专利技术属性】
技术研发人员:葛季栋李传艺姚林霞乔洪波杨关熊凯奇周筱羽骆斌
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1