【技术实现步骤摘要】
模拟票据图像生成、票据图像识别方法和装置
本申请涉及计算机
,特别是涉及一种模拟票据图像生成、票据图像识别方法、装置、计算机设备和存储介质。
技术介绍
票据识别是金融行业非常迫切的需求。目前票据识别训练数据通常采用从众包平台分发下来的标注数据。由于金融票据保密程度非常高往往需要切片脱敏分发,但票据识别模型的训练往往又需要内容完整单据,这使得票据识别模型的训练数据获取难度高,也提高了票据识别模型的训练成本。因此,现有技术中票据识别模型的训练成本较高。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够降低票据识别模型的训练成本的模拟票据图像生成、票据图像识别方法、装置、计算机设备和存储介质。本专利技术实施例提出一种模拟票据图像生成方法,包括:获取票据图像:确定所述票据图像中的待替换掉文本;根据所述待替换文本的语义概念,在预建立的语料数据库中获取目标替换文本;将所述票据图像中的所述待替换掉文本替换为所述目标替换文本,得到模拟票据图像。在其中一个实施 ...
【技术保护点】
1.一种模拟票据图像生成方法,其特征在于,包括:/n获取票据图像:/n确定所述票据图像中的待替换掉文本;/n根据所述待替换文本的语义概念,在预建立的语料数据库中获取目标替换文本;/n将所述票据图像中的所述待替换掉文本替换为所述目标替换文本,得到模拟票据图像。/n
【技术特征摘要】
1.一种模拟票据图像生成方法,其特征在于,包括:
获取票据图像:
确定所述票据图像中的待替换掉文本;
根据所述待替换文本的语义概念,在预建立的语料数据库中获取目标替换文本;
将所述票据图像中的所述待替换掉文本替换为所述目标替换文本,得到模拟票据图像。
2.根据权利要求1所述的方法,其特征在于,根据所述待替换文本的语义概念,在预建立的语料数据库中抽取目标替换文本,包括:
根据所述待替换文本的语义概念在所述语料数据库中获取与所述语义概念相同或相近的多个候选替换文本;
从所述多个候选替换文本中,随机抽取其中一个所述候选替换文本,作为所述目标替换文本。
3.根据权利要求1所述的方法,其特征在于,所述将所述票据图像中的所述待替换掉文本替换为所述目标替换文本,得到模拟票据图像,包括:
对所述票据图像中的所述待替换掉文本进行抹除处理,得到票据模板图像;
获取所述票据模板图像对应的区域标注信息;所述区域标注信息为对所述票据模板图像的各个区域对应的语义概念进行预先标注得到的信息;
根据所述区域标注信息,在所述票据模板图像的各个内容区域中确定文字填充区域;所述文字填充区域所标注的语义概念与所述目标替换文本的语义概念相同;
将所述目标替换文本,添加到所述文字填充区域中,得到所述模拟票据图像。
4.根据权利要求3所述的方法,其特征在于,所述将所述目标替换文本,添加到所述文字填充区域中,得到所述模拟票据图像,包括:
将所述目标替换文本,添加到所述文字填充区域中,得到内容变更后图像;
对所述内容变更后图像进行仿真处理,得到所述模拟票据图像。
5.根据权利要求4所述的方法,其特征在于,所述将所述目标替换文本,添加到所述文字填充区域中,得到内容变更后图像,包括:
将所述目标替换文本添加至所述文字填充区域中,得到初始变更后图像;
对所述初始变更后图像中的文字边缘像素点进行像素填充处理,得到处理后图像,作为所述内容变更后图像,所述处理后图像中的文字边缘像素点与周围像素点之间的外观相似度符合预设条件;所述周围像素点与所述文字边缘像素点之间的像素距离小于预设的距离阈值。
6.根据权利要求4所述的方法,其特征在于,所述对所述内容变更后图像进行仿真处理,得到所述模拟票据图像,包括:
随机生成所述内容变更后图像的噪声添加概率;
当所述噪声添加概率大于预设的概率阈值时,为所述内容变更后图像添加图像噪声,得到增噪后图像;...
【专利技术属性】
技术研发人员:刘渊,
申请(专利权)人:北京文思海辉金信软件有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。