票证识别训练样本合成方法和计算机存储介质技术

技术编号:21953810 阅读:20 留言:0更新日期:2019-08-24 18:14
本发明专利技术公开了一种票证识别训练样本合成方法和计算机存储介质,该方法包括:按照预设规则从语料库中进行字符采样,得到字符采样集合,并从所述字符采样集合中读取字符生成具有预定长度的样本字符串,将多个所述样本字符串组成样本字符串集合;对各样本字符串进行文字掩码预处理并生成对应的前景文字掩码图像;将各前景文字掩码图像与对应选取的票证背景图像进行二次图像融合,以得到用于票证识别的合成训练样本集合。根据本发明专利技术的技术方案,可以实现人工合成票证文本识别所需的训练样本,以用于替代真实样本来进行模型训练,进而还可以解决真实样本的样本数量不可控等难题。

Method of Composing Training Samples for Ticket Recognition and Computer Storage Media

【技术实现步骤摘要】
票证识别训练样本合成方法和计算机存储介质
本专利技术涉及文本识别
,尤其涉及一种票证识别训练样本合成方法和计算机存储介质。
技术介绍
随着智能手机技术的发展,用户在办理金融保险业务时使用手机拍摄各类票据证照(如房产证等)上传作为业务凭证越来越流行,通过OCR技术(OpticalCharacterRecognition,光学字符识别)识别所拍摄图片中的文字信息以用于信息录入或信息审核比对,不仅可以提高效率,降低成本,还可提升用户体验。现有的基于深度学习的OCR技术体系中,一般分为文本检测和文本识别两个步骤,其中文本识别多采用文本串整体识别,并基于真实样本训练识别模型。然而,在实际运用过程中,基于真实样本训练的方法却存在以下主要问题:(1)由于业务量等原因,导致真实训练样本的数量难以控制;(2)真实样本中的字符覆盖往往不均衡,影响识别模型的整体性能等。
技术实现思路
鉴于上述问题,本专利技术提出一种票证识别训练样本合成方法和计算机存储介质,通过生成合成训练样本以替代真实样本用于模型训练,可以解决现有真实样本的数量不可控和字符不均衡等问题。本专利技术实施例提出一种票证识别训练样本合成方法,包括:按照预设规则从语料库中进行字符采样,得到字符采样集合,并从所述字符采样集合中读取字符生成具有预定长度的样本字符串,将多个所述样本字符串组成样本字符串集合;对各样本字符串进行文字掩码预处理并生成对应的前景文字掩码图像;将各前景文字掩码图像与对应选取的票证背景图像进行二次图像融合,得到用于票证识别的合成训练样本集合。进一步地,所述“按照预设规则从语料库中进行字符采样,得到字符采样集合,并从所述字符采样集合中读取字符生成具有预定长度的样本字符串,将多个所述样本字符串组成样本字符串集合”包括:从语料库中读取预选字符集中所包含的字符,若当前读取的字符在字符采样集合中的字频计数小于或等于预设最高字频,则将所述当前读取的字符加入到所述字符采样集合中;从所述字符采样集合中依次读取字符以生成具有预定长度的字符串,将生成的多个所述样本字符串加入到样本字符串集合;判断所述样本字符串的数量是否达到预设样本量,并在达到所述预设样本量时停止字符采样。进一步地,在上述的票证识别训练样本合成方法中,还包括:停止所述字符采样后,判断所述预选字符集中的每一字符在所述字符采样集合中的字频计数是否小于预设最低字频;若是,则将小于所述预设最低字频的当前字符补充到字符补充集合中,以使所述当前字符在所述字符补充集合中的字频计数达到所述预设最低字频;从所述字符补充集合中依次读取字符并生成具有所述预定长度的字符串,将生成的样本字符串加入到所述样本字符串集合中。进一步地,所述“将所述前景文字掩码图像与预选的票证背景图像进行二次图像融合”包括:根据第一预设融合规则将所述前景文字掩码图像与所述票证背景图像进行融合,以获取第一融合图像;根据第二预设融合规则对所述第一融合图像进行融合,以获取第二融合图像,其中,所述第二融合图像作为用于票证识别的合成训练样本。进一步地,所述“根据第一预设融合规则将所述前景文字掩码图像与所述票证背景图像进行融合”包括:为所述前景文字掩码图像创建第一图层,所述第一图层的透明度为所述前景文字掩码图像的像素值乘以预设数值集合中的任意一元素,颜色值为集合[0,前景文字掩码图像的像素均值乘以预设倍数]中的一采样取值;为所述票证背景图像创建第二图层,所述第二图层设为不透明,颜色值为所述票证背景图像的像素均值;将所述第一图层和所述第一图层进行阿尔法图像融合,以生成所述第一融合图像。进一步地,所述“根据第二预设融合规则对所述第一融合图像进行融合,以获取第二融合图像”包括:根据所述第一融合图像和所述票证背景图像的梯度值确定所述第二融合图像中前景文本图像的梯度,以用于计算所述前景文本图像的散度;根据所述票证背景图像在边缘位置的散度及所述前景文本图像的散度计算所述第二融合图像的散度,并构建泊松方程;对所述泊松方程进行求解,以得到所述第二融合图像。进一步地,所述“对各样本字符串进行文字掩码预处理并生成对应的前景文字掩码图像”包括:按照预设字体处理规则对各样本字符串进行相应的字体效果处理;在完成所述字体效果处理之后,生成各样本字符串对应的初始前景文字掩码图像;从所述初始前景文字掩码图像中截取文字区域掩码图像,并根据选取的票证背景图像的尺寸和预设边距值调整所述文字区域掩码图像的尺寸,然后将调整后的文字区域掩码图像进行像素填充,得到与所述票证背景图像尺寸相同的前景文字掩码图像。进一步地,所述“从所述初始前景文字掩码图像中截取文字区域掩码图像”步骤之后,还包括:对所述文字区域掩码图像进行倾斜处理、透视变换处理和模糊处理中的至少一种操作。进一步地,若所述预设样本量为N,所述预定长度为L,所述预选字符集所含总字符数为M,则所述预设最高字频和所述预设最低字频的计算公式分别如下:本专利技术另一实施例还提出一种票证识别训练样本合成装置,包括:样本字符串集合生成模块,用于按照预设规则从语料库中进行字符采样,得到字符采样集合,并从所述字符采样集合中读取字符生成具有预定长度的样本字符串,将多个所述样本字符串组成样本字符串集合;前景文字掩码图像生成模块,用于对各样本字符串进行文字掩码预处理并生成对应的前景文字掩码图像;二次图像融合模块,用于将各所述前景文字掩码图像与对应选取的票证背景图像进行二次图像融合,以得到用于票证识别的合成训练样本集合。本专利技术又一实施例还提出一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序运行时控制所述计算机存储介质使计算机执行进一步的票证识别训练样本合成方法。通过本专利技术的技术方案可以实现人工合成票证文本识别所需的训练样本,以用于替代真实样本来进行模型训练,可以解决真实样本的样本数量不可控和字符覆盖不均衡等难题。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对本专利技术保护范围的限定。图1为本专利技术实施例票证识别训练样本合成方法的流程示意图;图2为本专利技术实施例票证识别训练样本合成方法的生成样本字符串的流程示意图;图3为本专利技术实施例票证识别训练样本合成方法的生成前景文字掩码图像的流程示意图;图4为本专利技术实施例票证识别训练样本合成方法的二次图像融合的流程示意图;图5为本专利技术实施例票证识别训练样本合成方法的第一次图像融合的流程示意图;图6为本专利技术实施例票证识别训练样本合成方法的第二次图像融合的流程示意图;图7为本专利技术实施例票证识别训练样本合成方法的训练样本合成过程示意图;图8为本专利技术实施例票证识别训练样本合成装置的结构示意图。主要元件符号说明:10-票证识别训练样本合成装置;100-样本字符串集合生成模块;200-前景文字掩码图像生成模块;300-二次图像融合模块。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要本文档来自技高网...

【技术保护点】
1.一种票证识别训练样本合成方法,其特征在于,包括:按照预设规则从语料库中进行字符采样,得到字符采样集合,并从所述字符采样集合中读取字符生成具有预定长度的样本字符串,将多个所述样本字符串组成样本字符串集合;对各样本字符串进行文字掩码预处理并生成对应的前景文字掩码图像;将各前景文字掩码图像与对应选取的票证背景图像进行二次图像融合,得到用于票证识别的合成训练样本集合。

【技术特征摘要】
1.一种票证识别训练样本合成方法,其特征在于,包括:按照预设规则从语料库中进行字符采样,得到字符采样集合,并从所述字符采样集合中读取字符生成具有预定长度的样本字符串,将多个所述样本字符串组成样本字符串集合;对各样本字符串进行文字掩码预处理并生成对应的前景文字掩码图像;将各前景文字掩码图像与对应选取的票证背景图像进行二次图像融合,得到用于票证识别的合成训练样本集合。2.根据权利要求1所述的票证识别训练样本合成方法,其特征在于,所述“按照预设规则从语料库中进行字符采样,得到字符采样集合,并从所述字符采样集合中读取字符生成具有预定长度的样本字符串,将多个所述样本字符串组成样本字符串集合”包括:从语料库中读取预选字符集中所包含的字符,若当前读取的字符在字符采样集合中的字频计数小于或等于预设最高字频,则将所述当前读取的字符加入到所述字符采样集合中;从所述字符采样集合中依次读取字符并生成具有预定长度的字符串,将生成的多个所述样本字符串加入到样本字符串集合;判断所述样本字符串的数量是否达到预设样本量,并在达到所述预设样本量时停止字符采样。3.根据权利要求2所述的票证识别训练样本合成方法,其特征在于,还包括:停止所述字符采样后,判断所述预选字符集中的每一字符在所述字符采样集合中的字频计数是否小于预设最低字频;若是,则将小于所述预设最低字频的当前字符补充到字符补充集合中,以使所述当前字符在所述字符补充集合中的字频计数达到所述预设最低字频;从所述字符补充集合中依次读取字符并生成具有所述预定长度的样本字符串,将生成的样本字符串加入到所述样本字符串集合中。4.根据权利要求1所述的票证识别训练样本合成方法,其特征在于,所述“将各前景文字掩码图像与对应选取的票证背景图像进行二次图像融合”包括:根据第一预设融合规则将所述前景文字掩码图像与所述票证背景图像进行融合,以获取第一融合图像;根据第二预设融合规则对所述第一融合图像进行图像融合,以获取第二融合图像,其中,所述第二融合图像作为用于票证识别的合成训练样本。5.根据权利要求4所述的票证识别训练样本合成方法,其特征在于,所述“根据第一预设融合规则将所述前景文字掩码图像与所述票证背景图像...

【专利技术属性】
技术研发人员:田强邓冠群李树凯
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1