一种生成训练样本的方法以及装置制造方法及图纸

技术编号:23766589 阅读:44 留言:0更新日期:2020-04-11 20:09
本说明书公开了一种生成训练样本的方法及装置,将数据库中获取已存储的存在关联关系的各数据,作为训练样本的来源,针对每个图像中,确定该图像中文本行对应的字符串,再从与该图像关联的各数据标识中,确定与至少一个字符串相匹配的数据标识,将该字符串对应的文本行在该图像中所在区域作为训练样板的样本图像,将匹配的数据标识作为训练样本的样本标签,生成训练样本。充分利用了数据库中已经存储的数据,自动的从中生成训练样本,避免了人工进行样本打标,降低了生成训练样本的成本,从海量业务数据中的图像确定样本图像更加贴近实际场景,可提高通过训练样本训练得到的OCR模型的识别准确率。

A method and device for generating training samples

【技术实现步骤摘要】
一种生成训练样本的方法以及装置
本申请涉及信息处理
,尤其涉及一种生成训练样本的方法以及装置。
技术介绍
目前,光学字符识别(OpticalCharacterRecognition,OCR)技术已经是较为成熟一种识别文字字符的方法,通过训练好的ORC模型可以实现识别图像中的文字。OCR模型的训练过程通常是有监督的,也就是训练样本携带有“标签”,在训练OCR模型时通过计算OCR模型的输出结果与“标签”的损失,调整OCR模型的参数,因此OCR模型的识别结果是否准确,与训练样本相关。在现有技术中,OCR模型训练所使用的训练样本主要通过人工标注或者通过模型生成两种方式得到。其中,人工标注训练样本,需要通过人工对已有的图像进行标注来生成训练样本,成本较高的同时标注效率较低,还存在标注错误的情况。而模型生成的方法包括:基于已有图像(通常为实际采集的图像)进行图像处理,得到多个训练样本的方法。或者,基于从已有图像中提取出的单个字符对应的图像,进行图像拼接,生成训练样本的方法。可见模型生成方法得到的训练样本,本质上是基于已有的图像进行“改造”得到的,并没有实际增加训练样本的丰富程度。图像处理得到的训练样本,毕竟不是真实在实际场景中采集的图像,训练出的OCR模型在实际场景中的识别准确率难以确定。
技术实现思路
本说明书实施例提供的一种生成训练样本的方法及装置,用于部分解决现有技术中存在的问题。本说明书实施例采用下述技术方案:本说明书提供的生成训练样本的方法,包括:>从数据库中获取已存储的存在关联关系的各数据,所述数据至少包括:图像以及数据标识;针对每个图像,确定该图像中至少一个文本行对应的字符串;从与该图像关联的各数据标识中,确定与至少一个字符串相匹配的数据标识,作为样本标签;在该图像中,确定与所述样本标签匹配的字符串对应的文本行所在区域,作为与样本标签对应的样本图像;根据确定出的样本图像及其对应的样本标签,生成训练样本。可选地,从数据库中获取已存储的存在关联关系的各数据,具体包括:针对配送平台的数据库中存储的每个兴趣点POI,获取预先保存的该POI对应的业务数据;确定所述业务数据中包含的图像以及所述业务数据中包含的数据标识,所述数据标识包括:供应方名称、供应方联系方式、供应方地址中的至少一种。可选地,确定该图像中至少一个文本行对应的字符串,具体包括:确定该图像中至少一个文本行所在区域;确定各文本行所在区域的文本行分别对应的字符串。可选地,从与该图像关联的各数据标识中,确定与至少一个字符串相匹配的数据标识,具体包括:针对与该图像关联的每个数据标识,确定该数据标识分别与该图像中各文本行对应的字符串的相似度,确定与该数据标识匹配的字符串。可选地,确定该数据标识分别与该图像中各文本行对应的字符串的相似度,具体包括:根据字符串包含的字符、字符串包含的字符数量、字符串中包含的各字符的置信度中的至少一种,确定各字符串与该数据标识的相似度。可选地,确定与所述样本标签匹配的字符串对应的文本行所在区域,具体包括:针对与所述样本标签匹配的字符串对应的文本行,确定所述文本行在该图像中对应的多边形区域,以及所述多边形区域对应的最小外接矩形;确定所述多边形区域的文字竖直方向;根据确定出的文字竖直方向以及所述多边形区域,调整所述最小外接矩形,得到所述文本行在所述图像中对应的外接四边形区域;根据得到的外接四边形区域,确定与所述样本标签匹配的字符串对应的文本行在该图像中所在区域。本说明书提供的生成训练样本的装置,包括:获取模块,从数据库中获取已存储的存在关联关系的各数据,所述数据至少包括:图像以及数据标识;第一确定模块,针对每个图像,确定该图像中至少一个文本行对应的字符串;匹配模块,从与该图像关联的各数据标识中,确定与至少一个字符串相匹配的数据标识,作为样本标签;第二确定模块,在该图像中,确定与所述样本标签匹配的字符串对应的文本行所在区域,作为与样本标签对应的样本图像;生成模块,根据确定出的样本图像及其对应的样本标签,生成训练样本。可选地,所述第二确定模块针对与所述样本标签匹配的字符串对应的文本行,确定所述文本行在该图像中对应的多边形区域,以及所述多边形区域对应的最小外接矩形,确定所述多边形区域的文字竖直方向,根据确定出的文字竖直方向以及所述多边形区域,调整所述最小外接矩形,得到所述文本行在所述图像中对应的外接四边形区域,根据得到的外接四边形区域,确定与所述样本标签匹配的字符串对应的文本行在该图像中所在区域。本说明书提供的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述生成训练样本的方法。本说明书提供的计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述生成训练样本的方法。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:将数据库中获取已存储的存在关联关系的各数据,作为训练样本的来源,针对每个图像中,确定该图像中文本行对应的字符串,再从与该图像关联的各数据标识中,确定与至少一个字符串相匹配的数据标识,将该字符串对应的文本行在该图像中所在区域作为训练样板的样本图像,将匹配的数据标识作为训练样本的样本标签,生成训练样本。充分利用了数据库中已经存储的数据,自动的从中生成训练样本,避免了人工进行样本打标,降低了生成训练样本的成本,并且从海量业务数据中的图像确定样本图像,并非通过对少量图像进行“改造”得到的,使得训练样本的丰富程度相较于现有方法更加丰富,更加贴近实际场景,可提高通过训练样本训练得到的OCR模型的识别准确率。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本说明书实施例提供的生成训练样本的过程示意图;图2为本说明书实施例提供的确定样本图像的示意图;图3为本说明书实施例提供的非正面采集图像确定出的最小外接矩形的示意图;图4为本说明书实施例提供的确定文字竖直方向的示意图;图5为本说明书实施例提供的连线示意图;图6为本说明书提供的外接四边形的示意图;图7和图8为本说明书实施例提供的确定样本图像的过程示意图;图9为本说明书实施例提供的生成训练样本的装置的结构示意图;图10为本说明书实施例提供的控制器的示意结构图。具体实施方式为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造本文档来自技高网...

【技术保护点】
1.一种生成训练样本的方法,其特征在于,包括:/n从数据库中获取已存储的存在关联关系的各数据,所述数据至少包括:图像以及数据标识;/n针对每个图像,确定该图像中至少一个文本行对应的字符串;/n从与该图像关联的各数据标识中,确定与至少一个字符串相匹配的数据标识,作为样本标签;/n在该图像中,确定与所述样本标签匹配的字符串对应的文本行所在区域,作为与样本标签对应的样本图像;/n根据确定出的样本图像及其对应的样本标签,生成训练样本。/n

【技术特征摘要】
1.一种生成训练样本的方法,其特征在于,包括:
从数据库中获取已存储的存在关联关系的各数据,所述数据至少包括:图像以及数据标识;
针对每个图像,确定该图像中至少一个文本行对应的字符串;
从与该图像关联的各数据标识中,确定与至少一个字符串相匹配的数据标识,作为样本标签;
在该图像中,确定与所述样本标签匹配的字符串对应的文本行所在区域,作为与样本标签对应的样本图像;
根据确定出的样本图像及其对应的样本标签,生成训练样本。


2.如权利要求1所述的方法,其特征在于,从数据库中获取已存储的存在关联关系的各数据,具体包括:
针对配送平台的数据库中存储的每个兴趣点POI,获取预先保存的该POI对应的业务数据;
确定所述业务数据中包含的图像以及所述业务数据中包含的数据标识,所述数据标识包括:供应方名称、供应方联系方式、供应方地址中的至少一种。


3.如权利要求1所述的方法,其特征在于,确定该图像中至少一个文本行对应的字符串,具体包括:
确定该图像中至少一个文本行所在区域;
确定各文本行所在区域的文本行分别对应的字符串。


4.如权利要求1所述的方法,其特征在于,从与该图像关联的各数据标识中,确定与至少一个字符串相匹配的数据标识,具体包括:
针对与该图像关联的每个数据标识,确定该数据标识分别与该图像中各文本行对应的字符串的相似度,确定与该数据标识匹配的字符串。


5.如权利要求4所述的方法,其特征在于,确定该数据标识分别与该图像中各文本行对应的字符串的相似度,具体包括:
根据字符串包含的字符、字符串包含的字符数量、字符串中包含的各字符的置信度中的至少一种,确定各字符串与该数据标识的相似度。


6.如权利要求1所述的方法,其特征在于,确定与所述样本标签匹配的字符串对应的文本行所在区域,具体包括:
针对与所述样...

【专利技术属性】
技术研发人员:左凯程钰茗应晓伟
申请(专利权)人:汉海信息技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1