【技术实现步骤摘要】
文本图像合成方法、装置、设备、存储介质和程序产品
[0001]本申请涉及光学字符识别
,特别是涉及一种文本图像合成方法、装置、设备、存储介质和程序产品。
技术介绍
[0002]随着人工智能技术的发展,出现了光学字符识别(Optical Character Recognition,OCR)技术。光学字符识别OCR是指对包含文本资料的图像资料文件(可简称为文本图像)进行分析识别处理,获取文字信息的技术。在金融场景中包括多种文本图像,例如票据、文档、卡证、表格等不同的具有金融特色的文本图像。这些文本图像具有文字布局不定,字段的字体、颜色、长短、语料不同,文字所处的背景复杂多样的特点。
[0003]在针对具有金融特色的文本图像进行OCR模型训练时,需要准备与真实文本图像的数据特征相同或相似的数据集。然而,现有的与真实文本图像的数据特征相同或相似的数据集的数量不能满足训练要求。如果由人工去实际拍摄足够数量的真实文本图像则又会耗费大量的人力和时间成本,且对真实文本图像进行人工标注的代价也很高昂。
[0004]为了快 ...
【技术保护点】
【技术特征摘要】
1.一种文本图像合成方法,其特征在于,所述方法包括:获取模板图像,所述模板图像携带有标注信息;根据所述标注信息中的内容信息生成初始文本区域;根据局部区域处理规则对所述初始文本区域进行处理得到目标文本区域;根据所述标注信息中的位置信息将所述模板图像和所述目标文本区域融合生成初始文本图像。2.根据权利要求1所述的方法,其特征在于,所述根据局部区域处理规则对所述初始文本区域进行处理得到目标文本区域,包括:根据基础图像算子、盖章字体效果算子、针式打印字体效果算子和字迹斑驳效果算子中的至少一个对所述初始文本区域进行处理,得到目标文本区域;所述基础图像算子是指对所述初始文本区域进行区域位置操作的算子;所述盖章字体效果算子是指将所述初始文本区域中的文字处理成盖章字体的算子;所述针式打印字体效果算子是指将所述初始文本区域中的文字处理成针式打印字体的算子;所述字迹斑驳效果算子是指将所述初始文本区域中的文字处理成字迹斑驳字体的算子。3.根据权利要求2所述的方法,其特征在于,所述初始文本区域被所述盖章字体效果算子进行处理的过程,包括:从所述初始文本区域中随机选取像素点,并将所述像素点赋值为所述初始文本区域的背景颜色;对赋值后的初始文本区域进行图像膨胀操作和图像腐蚀操作,得到目标文本区域。4.根据权利要求2所述的方法,其特征在于,所述初始文本区域被所述针式打印字体效果算子进行处理的过程,包括:在所述初始文本区域上叠加带有所述初始文本区域的背景颜色的网格;通过所述盖章字体效果算子对叠加网格后的初始文本区域进行处理,得到目标文本区域。5.根据权利要求2所述的方法,其特征在于,所述初始文本区域被所述字迹斑驳效果算子进行处理的过程,包括:生成高斯分布的矩阵,所述矩阵的尺寸等于所述初始文本区域的尺寸;获取预设值;建立所述矩阵的各元素与所述初始文本区域的像素点的映射关系,并将所述矩阵中小于所述预设值的元素对应像素点随机进行亮度的调节;对进行亮度调节后的初始文本区域进行图像处理操作,得到目标文本区域。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据整体图像处理规则对所述初始文本图像进行处理得到目标文本图像。7.根据权利要求6所述的方法,其特征在于,所述根据整体图像处理规则对所述初始文本图像进行处理得到目标文本图像,包括:根据图像加噪操作、局部变淡算子、加盖印章算子和添加水印算子中的至少一个对所述初始文本图像进行处理,得到目标文本图像;所述局部变淡算子是指将所述初始文本图像进行亮度处理的算子;所述加盖印章算子是指在所述初始文本图像中添加印章图像的算子;所述添加水印算子是指在所述初始文本图像中添加水印图像的算子。
8.根据权利要求...
【专利技术属性】
技术研发人员:周丹雅,李捷,王巍,厉超,徐敏,赵逸如,
申请(专利权)人:上海浦东发展银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。