基于OCR的案件文本识别方法及电子设备技术

技术编号：28624915 阅读：26 留言：0更新日期：2021-05-28 16:21

本公开提供了一种基于OCR的案件文本识别方法及电子设备。该文本识别方法包括：利用由案卷图片样本集中的初始已标注样本构成的初始训练集，对目标检测模型进行预训练；利用经过预训练的所述目标检测模型，对多个未标注样本进行主动学习，以选取具有样式代表性的核心样本集供人工标注；将已标注的核心样本集与初始训练集合并成标注样本集；基于所述标注样本集，利用半监督学习方法对所述目标检测模型进行迭代训练，直至确定所述目标检测模型符合预定要求。本公开提供的文本识别方法能够实现标注样本的多样化，同时选取合适的目标检测模型进行迭代训练，不断更新和扩大标注数据集，直接降低人工标注样本的人力和时间损耗。

全部详细技术资料下载

【技术实现步骤摘要】
基于OCR的案件文本识别方法及电子设备
本公开涉及深度学习
，尤其涉及一种基于OCR的案件文本识别方法及电子设备。
技术介绍
现有纸质案卷一般通过人工录入的方式对案卷信息进行结构化处理和保存，以便日后的电子案卷管理和查询。但这种方式在处理大规模案卷资料时人力成本过高，且手工录入也容易出现错误。对于结构化且版式简单的案卷，现有的自动识别技术可以针对待识别案卷固定的几何位置或特殊的定位符号，通过定位符号或者简单的集合换算对案卷信息进行提取，并利用光学字符识别技术对字符进行检测和识别。实际情况中，案卷版式复杂且样式繁多，例如案卷中存在的印章、指纹干扰，文字变形等情况。基于深度学习的光学字符识别技术对这类案卷进行文字识别时，需要大量且高质量的标注样本，但在工业应用场景中很难获取大量的标注样本。若想获得高精度的预训练模型的训练结果，需要大量人工对未标注的样本进行标注。在已标注案卷样本有限的情况下，亟需一种通用的方法或设备可以准确有效地自动识别案卷中的文本信息。
技术实现思路
有鉴于此，本公开的目的在于...

【技术保护点】
1.一种基于OCR的案件文本识别方法，包括：/n利用由案卷图片样本集中的初始已标注样本构成的初始训练集，对目标检测模型进行预训练；/n利用经过预训练的所述目标检测模型，对所述案卷图片样本集中的多个未标注样本进行主动学习，以从所述多个未标注样本中选取具有样式代表性的核心样本集供人工标注；/n响应于接收到已标注的所述核心样本集，将已标注的所述核心样本集与所述初始训练集合并成标注样本集；/n基于所述标注样本集，利用半监督学习方法对经过预训练的所述目标检测模型进行迭代训练，直至确定所述目标检测模型符合预定要求。/n

【技术特征摘要】
1.一种基于OCR的案件文本识别方法，包括：
利用由案卷图片样本集中的初始已标注样本构成的初始训练集，对目标检测模型进行预训练；
利用经过预训练的所述目标检测模型，对所述案卷图片样本集中的多个未标注样本进行主动学习，以从所述多个未标注样本中选取具有样式代表性的核心样本集供人工标注；
响应于接收到已标注的所述核心样本集，将已标注的所述核心样本集与所述初始训练集合并成标注样本集；
基于所述标注样本集，利用半监督学习方法对经过预训练的所述目标检测模型进行迭代训练，直至确定所述目标检测模型符合预定要求。

2.根据权利要求1所述的方法，还包括：
在对所述目标检测模型进行预训练之前，对所述初始训练集进行数据增强处理。

3.根据权利要求2所述的方法，还包括：
在将已标注的所述核心样本集与所述初始训练集合并成所述标注样本集之前，对已标注的所述核心样本集进行所述数据增强处理，
其中，将已标注的所述核心样本集与所述初始训练集合并成所述标注样本集包括：将经过所述数据增强处理的已标注的所述核心样本集与经过所述数据增强处理的所述初始训练集合并成所述标注样本集。

4.根据权利要求1所述的方法，其中，所述标注样本集中对每个目标的类别标注信息仅指示该目标是否为文本。

5.根据权利要求1至4中任一项所述的方法，其中，
所述目标检测模型包括YOLOv4模型，其中引入了水平瘦长的第一类锚框和竖直瘦长的第二类锚框。

6.根据权利要求5所述的方法，其中，从所述多个未标注样本中选取所述核心样本集...

【专利技术属性】
技术研发人员：朵思惟，余梓飞，张艳丽，王斐，
申请(专利权)人：天津汇智星源信息技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人