文本分离方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33854403 阅读:28 留言:0更新日期:2022-06-18 10:41
本发明专利技术提供一种文本分离方法、装置、电子设备和存储介质,其中方法包括:确定待分离的重叠文本图像;将重叠文本图像输入至文本分离模型,得到文本分离模型输出的文本分离图像;文本分离模型基于样本重叠文本图像,以及样本重叠文本图像的样本文本分离图像,联合判别模型进行对抗训练得到,判别模型用于区分预测文本分离图像与样本文本分离图像,预测文本分离图像是文本分离模型基于样本重叠文本图像确定的,引入生成和对抗机制训练文本分离模型,能够保证其对于重叠文本图像的文本分离能力,克服了传统方案无法实现重叠文本分离的缺陷,在实现重叠文本分离的同时,保证了文本分离图像的自然度和逼真度,极大程度上提高了文本分离图像的图像质量。离图像的图像质量。离图像的图像质量。

【技术实现步骤摘要】
文本分离方法、装置、电子设备和存储介质


[0001]本专利技术涉及图像处理
,尤其涉及一种文本分离方法、装置、电子设备和存储介质。

技术介绍

[0002]在OCR(Optical Character Recognition,光学字符识别)票据文字识别场景中,由于票据打印会存在错行的情况,而错行现象会导致票据中存在大量的文本重叠,即票据本身的固定文本和后期打印的印刷文本之间的重叠,而通过图像处理方法可实现重叠文本的分离。
[0003]传统方案中,主要是对文本像素和背景像素进行区分,通过加强文本像素,实现文本图像二值化,但是,上述通过像素值的大小区分文本区域和背景区域的方式,仅能实现重叠图像中文本区域和背景区域分离,而无法实现对文本区域中的重叠文本进行分离;并且,对于背景较为复杂的自然场景,其分离效果不佳。

技术实现思路

[0004]本专利技术提供一种文本分离方法、装置、电子设备和存储介质,用以解决现有技术中仅能针对文本区域和背景区域进行区分,无法实现文本区域中重叠文本的分离,从而导致后续文字识别准确度低下的缺陷。
[0005]本专利技术提供一种文本分离方法,包括:
[0006]确定待分离的重叠文本图像;
[0007]将所述重叠文本图像输入至文本分离模型,得到所述文本分离模型输出的文本分离图像;
[0008]所述文本分离模型基于样本重叠文本图像,以及所述样本重叠文本图像的样本文本分离图像,联合判别模型进行对抗训练得到,所述判别模型用于区分预测文本分离图像与所述样本文本分离图像,所述预测文本分离图像是所述文本分离模型基于所述样本重叠文本图像确定的。
[0009]根据本专利技术提供的一种文本分离方法,所述将所述重叠文本图像输入至文本分离模型,得到所述文本分离模型输出的文本分离图像,包括:
[0010]将所述重叠文本图像输入至所述文本分离模型中的特征卷积网络,得到所述特征卷积网络输出的所述重叠文本图像的图像特征;
[0011]将所述图像特征输入至所述文本分离模型中的固定文本生成网络,得到所述固定文本生成网络输出的固定文本图像;
[0012]将所述图像特征输入至所述文本分离模型中的印刷文本生成网络,得到所述印刷文本生成网络输出的印刷文本图像,所述固定文本图像和所述印刷文本图像构成所述文本分离图像。
[0013]根据本专利技术提供的一种文本分离方法,所述将所述图像特征输入至所述文本分离
模型中的印刷文本生成网络,得到所述印刷文本生成网络输出的印刷文本图像,包括:
[0014]将所述图像特征分别输入至所述印刷文本生成网络下的印刷文本生成分支和印刷文本二值图生成分支,得到所述印刷文本生成分支输出的初始印刷文本图像,以及所述印刷文本二值图生成分支输出的印刷文本二值图;
[0015]基于所述印刷文本二值图,以及所述初始印刷文本图像,确定所述印刷文本图像。
[0016]根据本专利技术提供的一种文本分离方法,所述判别模型包括固定文本判别分支,印刷文本判别分支以及印刷文本二值图判别分支;
[0017]所述固定文本判别分支用于判别固定文本图像的真伪;
[0018]所述印刷文本判别分支用于判别初始印刷文本图像的真伪;
[0019]所述印刷文本二值图判别分支用于判别印刷文本二值图的真伪。
[0020]根据本专利技术提供的一种文本分离方法,所述文本分离模型和所述判别模型基于如下步骤确定:
[0021]构建初始文本分离模型和初始判别模型;
[0022]将所述样本重叠文本图像输入至所述初始文本分离模型,得到所述初始文本分离模型输出的预测文本分离图像;
[0023]将所述预测文本分离图像,以及所述样本文本分离图像分别输入至所述初始判别模型,得到所述初始判别模型输出的所述预测文本分离图像的判别结果,以及所述样本文本分离图像的判别结果;
[0024]基于所述预测文本分离图像,所述样本文本分离图像,所述预测文本分离图像的判别结果以及所述样本文本分离图像的判别结果,对所述初始文本分离模型和所述初始判别模型进行参数更新,得到所述文本分离模型和所述判别模型。
[0025]根据本专利技术提供的一种文本分离方法,所述基于所述预测文本分离图像,所述样本文本分离图像,所述预测文本分离图像的判别结果以及所述样本文本分离图像的判别结果,对所述初始文本分离模型和所述初始判别模型进行参数更新,得到所述文本分离模型和所述判别模型,包括:
[0026]基于所述预测文本分离图像,以及所述样本文本分离图像,确定所述初始文本分离模型的生成损失;
[0027]基于所述预测文本分离图像的判别结果,以及所述样本文本分离图像的判别结果,确定所述初始判别模型的判别损失;
[0028]基于所述生成损失和所述判别损失,对所述初始文本分离模型和所述初始判别模型进行参数更新,得到所述文本分离模型和所述判别模型。
[0029]根据本专利技术提供的一种文本分离方法,所述生成损失包括固定文本生成损失和印刷文本生成损失,所述印刷文本生成损失包括初始印刷文本生成损失和印刷文本二值图生成损失;
[0030]所述固定文本生成损失基于所述预测文本分离图像中的预测固定文本图像,以及所述样本文本分离图像中的样本固定文本图像确定;
[0031]所述初始印刷文本生成损失基于所述预测文本分离图像中的预测初始印刷文本图像,以及所述样本文本分离图像中的样本初始印刷文本图像确定;
[0032]所述初始印刷文本二值图生成损失基于所述预测文本分离图像中的预测印刷文
本二值图,以及所述样本文本分离图像中的样本印刷文本二值图确定。
[0033]本专利技术还提供一种文本分离装置,包括:
[0034]图像确定单元,用于确定待分离的重叠文本图像;
[0035]文本分离单元,用于将所述重叠文本图像输入至文本分离模型,得到所述文本分离模型输出的文本分离图像;所述文本分离模型基于样本重叠文本图像,以及所述样本重叠文本图像的样本文本分离图像,联合判别模型进行对抗训练得到,所述判别模型用于区分预测文本分离图像与所述样本文本分离图像,所述预测文本分离图像是所述文本分离模型基于所述样本重叠文本图像确定的。
[0036]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的文本分离方法。
[0037]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的文本分离方法。
[0038]本专利技术提供的文本分离方法、装置、电子设备和存储介质,将重叠文本图像输入至文本分离模型,得到文本分离模型输出的文本分离图像;其中,文本分离模型基于样本重叠文本图像,以及样本重叠文本图像的样本文本分离图像,联合判别模型进行对抗训练得到,引入生成和对抗机制训练文本分离模型,能够使得训练所得的文本分离模型针对重叠文本图像的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分离方法,其特征在于,包括:确定待分离的重叠文本图像;将所述重叠文本图像输入至文本分离模型,得到所述文本分离模型输出的文本分离图像;所述文本分离模型基于样本重叠文本图像,以及所述样本重叠文本图像的样本文本分离图像,联合判别模型进行对抗训练得到,所述判别模型用于区分预测文本分离图像与所述样本文本分离图像,所述预测文本分离图像是所述文本分离模型基于所述样本重叠文本图像确定的。2.根据权利要求1所述的文本分离方法,其特征在于,所述将所述重叠文本图像输入至文本分离模型,得到所述文本分离模型输出的文本分离图像,包括:将所述重叠文本图像输入至所述文本分离模型中的特征卷积网络,得到所述特征卷积网络输出的所述重叠文本图像的图像特征;将所述图像特征输入至所述文本分离模型中的固定文本生成网络,得到所述固定文本生成网络输出的固定文本图像;将所述图像特征输入至所述文本分离模型中的印刷文本生成网络,得到所述印刷文本生成网络输出的印刷文本图像,所述固定文本图像和所述印刷文本图像构成所述文本分离图像。3.根据权利要求2所述的文本分离方法,其特征在于,所述将所述图像特征输入至所述文本分离模型中的印刷文本生成网络,得到所述印刷文本生成网络输出的印刷文本图像,包括:将所述图像特征分别输入至所述印刷文本生成网络下的印刷文本生成分支和印刷文本二值图生成分支,得到所述印刷文本生成分支输出的初始印刷文本图像,以及所述印刷文本二值图生成分支输出的印刷文本二值图;基于所述印刷文本二值图,以及所述初始印刷文本图像,确定所述印刷文本图像。4.根据权利要求3所述的文本分离方法,其特征在于,所述判别模型包括固定文本判别分支,印刷文本判别分支以及印刷文本二值图判别分支;所述固定文本判别分支用于判别固定文本图像的真伪;所述印刷文本判别分支用于判别初始印刷文本图像的真伪;所述印刷文本二值图判别分支用于判别印刷文本二值图的真伪。5.根据权利要求1至3中任一项所述的文本分离方法,其特征在于,所述文本分离模型和所述判别模型基于如下步骤确定:构建初始文本分离模型和初始判别模型;将所述样本重叠文本图像输入至所述初始文本分离模型,得到所述初始文本分离模型输出的预测文本分离图像;将所述预测文本分离图像,以及所述样本文本分离图像分别输入至所述初始判别模型,得到所述初始判别模型输出的所述预测文本分离图像的判别结果,以及所述样本文本分离图像的判别结果;基于所述预测文本分离图像,所述样本文...

【专利技术属性】
技术研发人员:魏永强胡殿明刘雨亮
申请(专利权)人:北京感易智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1