基于OCR图片识别的模版定位方法、装置和计算机设备制造方法及图纸

技术编号：23558800 阅读：30 留言：0更新日期：2020-03-25 04:15

本申请涉及一种基于OCR图片识别的模版定位方法、装置、计算机设备和存储介质。所述方法包括：获取待训练的图片数据；识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性；按照所述图片特性对所述图片数据进行分类；针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集；根据所述图片特性对所述数据集进行训练，获得模版定位模型。采用本方法能够有效解决因保单图片数据量少而无法进行模型训练的问题，提高保单分类的精确性，并提高运行效率。

Template positioning method, device and computer equipment based on OCR image recognition

全部详细技术资料下载

【技术实现步骤摘要】
基于OCR图片识别的模版定位方法、装置和计算机设备
本申请涉及软件开发
，特别是涉及一种基于OCR图片识别的模版定位方法、装置、计算机设备和存储介质。
技术介绍
在传统的保单识别领域，通常是根据用户手动输入纸质保单中的数据来进行数据填写，而随着科技的进步，智能保单识别技术应运而生，比如目前迅速发展的OCR图像识别技术，已经广泛应用于身份证、银行卡以及各种保单的识别中，对于身份证和银行卡的OCR识别，其文本位置固定比较方便处理，而保单OCR由于险种种类繁多，样式、条款和排版均不相同，需要针对每一类相同的保单都制作模板来进行分类。目前对保单模版的建立是通过机器学习对每一图片进行特征提取后，对特征数值进行向量机分类，但这种方法需要对大量保单数据进行训练并且运算过程慢，而且经常出现数据集不足的问题，使得保单OCR的模板定位很复杂。
技术实现思路
基于此，有必要针对上述技术问题，提供一种基于OCR图片识别的模版定位方法、装置、计算机设备和存储介质,有效解决因保单图片数据量少而无法进行模型训练的问题，提...

【技术保护点】
1.一种基于OCR图片识别的模版定位方法，其特征在于，所述方法包括：/n获取待训练的图片数据；/n识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性；/n按照所述图片特性对所述图片数据进行分类；/n针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集；/n根据所述图片特性对所述数据集进行训练，获得模版定位模型。/n

【技术特征摘要】
1.一种基于OCR图片识别的模版定位方法，其特征在于，所述方法包括：
获取待训练的图片数据；
识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性；
按照所述图片特性对所述图片数据进行分类；
针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集；
根据所述图片特性对所述数据集进行训练，获得模版定位模型。

2.根据权利要求1所述的方法，其特征在于，在获取待训练的图片数据之后，还包括：
通过机器学习对所述图片数据进行粗分类处理。

3.根据权利要求2所述的方法，其特征在于，识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息包括：
对粗分类处理后的每一类图片中的特定文本对应的区域进行坐标截取，获得该区域的坐标信息；
根据预设算法对所述坐标信息进行距离转换，并通过大数据分析获得相应的图片特性。

4.根据权利要求1所述的方法，其特征在于，所述预处理包括：
将每一分类下的全部图片数据按照预设截取规则进行截取；
将截取后的图片按照不同角度进行旋转，生成多张图片数据，并进行数据编码标注。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述图片特...

【专利技术属性】
技术研发人员：田立文，
申请(专利权)人：世纪保众北京网络科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人