一种机打票据图像结构化识别方法技术

技术编号:30823686 阅读:82 留言:0更新日期:2021-11-18 12:13
本发明专利技术公开了一种机打票据图像结构化识别方法,采集某一类机打票据的多张图像,通过手工标注票据中的文本框坐标及其内容,保存为标注文件;制作成文本检测训练集A,文本识别训练集B,同时采集公开文本识别训练集C;通过训练集A、B,分别训练机打票据的文本检测F1模型、文本识别F2模型;建立单字符切割F5模型,该方法无需专门的拍摄和图像扫描设备、不要求拍摄绝对水平,基于普通相机拍摄的机打票据照片即可进行结构化提取。对发票中的印章可以通过自编码器的方式进行消除。使用迁移学习的字符识别网络在达到同样准确率的情况下,可以减少票据数据的标注工作。据数据的标注工作。据数据的标注工作。

【技术实现步骤摘要】
一种机打票据图像结构化识别方法


[0001]本专利技术属于图像识别
,涉及一种机打票据图像结构化识别方法。

技术介绍

[0002]机打票据图像在日常生活中普遍存在。对于公司和政府部门来说,每天都有大量的票据信息采集和处理工作,传统的人手工录入信息效率低下且人力成本高昂,当前已有的文本OCR 方案无法去除票据中的印章,常常造成识别率降低。此外票据识别神经网络的训练需要大量的标记数据,成本高昂。
[0003]现有技术方案包括:第一种为逐行识别:对文本图像进行扫描变成黑白的灰度图像,对图像进行二值化操作将背景杂色去掉,只保留文本成纯黑色。在水平方向进行投影,处于同一行的文本投影后在y轴方向会处于同一个高度范围,通过投影可以将多个文本行分开,逐行检测到文本行。然后对每一个文本行的字符进行切分,最后进行识别。要求图像平整和水平,同时这种方法无法区分关键字、信息。第二种为通过深度卷积神经网络进行文本检测:对发票中的图像进行文本检测,现有的很多深度卷积神经网络都可以检测到发票中的文本并框选出来,最后再对框中的文本内容进行识别。
[0004]但是存在较大缺陷,具体为:对于逐行识别方案:仅仅按照逐行识别,一方面难以获取到发票的结构,另一方面由于票据中有很多的表格框线,票据内容也并非呈现规则的多行文本规则排列,难以进行准确的文本行检测。对于深度卷积神经网络检测文本的方案:仅仅检测文本和识别文本,并不能确定此文本属于什么内容。例如检测出两个金额,并不能知道哪一个是定金,哪一个是税费。若印章中有文字出现,常常无法正确检测和识别。

技术实现思路

[0005]本专利技术的目的在于:提供了一种机打票据图像结构化识别方法,解决了现有技术的不足。
[0006]本专利技术采用的技术方案如下:
[0007]一种机打票据图像结构化识别方法,包括以下步骤:
[0008]步骤1、采集某一类机打票据的多张图像,通过手工标注票据中的文本框坐标及其内容,保存为标注文件;
[0009]步骤2、从步骤1的标注文件,结合文本检测及识别的公开数据集,制作成文本检测训练集A,文本识别训练集B,同时采集公开文本识别训练集C;
[0010]步骤3、通过训练集A、B,分别训练机打票据的文本检测F1模型、文本识别F2模型,其中F2模型包括两个模型:一个为F2

1模型、识别单个字符的图像,一个为F2

2模型、识别连续字符的图像;
[0011]步骤4、建立单字符切割F5模型,
[0012]首先当获取到某行文本所在的框,将这个框所在的坐标截取为图像,对图像进行去噪音和二值化操作;二值化后图像变为黑白图像,黑色为1值白色为0值,从上往下对图像
进行投影,通过投影边界切割单字符;通过制作标准票据模板M1结合透视投影算法,建立票据图像矫正F4模型;
[0013]步骤5、模型建立完成后,读取单张机打票据图像P1,输入到文本检测F1模型,模型 F1自动将图像P1中的多个文本行检测出来;
[0014]步骤6、对步骤5中检测到的多个文本行,在左上、左下、右上、右下四个角落,对其中字符串使用模型F5进行单字符切割,同时保存每个单字符的坐标;使用模型F2

1识别每个单字符,识别结果组成字符串;4个角落的字符串识别结果LF、LD、RF、RD;
[0015]步骤7、对4个角落的识别结果分别使用票据标准模板M1进行匹配,票据标准模板M1 中保存了四个角落的关键字及其坐标,使用LU

M、LB

M、RU

M、RB

M与LU、LB、RU、RB分别进行匹配,在每一个角落中确定一个文本行LU

1,LB

1,RU

1,RB

1用于矫正;
[0016]步骤8、在步骤7得到了4个角落一共四行文本LU

1,LB

1,RU

1,RB

1,且保存了其中每个单字符的坐标,在步骤7中已知LF

M、LD

M、RF

M、RD

M关键字的单字坐标;因此推算出四组坐标一一对应的组合(LU

1、LU

M)(LB

1、LB

M)、(RU

1、RU

M)、(RB

1、 RB

M);
[0017]将这四组坐标输入到模型F4矫正,得到和票据标准模板M1相同标准票据尺寸的标准图像P2;
[0018]步骤9、票据标准模板M1中有每个一一对应的KV结构的所处的矩形框坐标Loc,对于标准图像P2,使用模块F1检测出其中的文本行框,然后取所有Loc和所有文本行框的交集,得初始KV结构的文本框;
[0019]步骤10、将步骤9中得到的文本框输入到模型F3中,通过自编码器对带有印章的图像先编码再解码,消除图像中的印章部分,重构图像,以达到消除印章的目的,得到最终KV 结构的文本框;
[0020]步骤11、将步骤10中得到的最终KV结构的文本框依次使用模型F2

2进行字符串识别,得到票据结构化识别结果。
[0021]进一步地,所述步骤8中模型F4的票据矫正过程如下:
[0022]通过匹配4组点,原图中4个点,对应模板中4个点,计算原图到模板标准图的透视矩阵A,原图通过乘以这个透视矩阵A便可以矫正为平整水平且和模板同一尺寸的标准图像;
[0023]其中透视投影算法公式如下:
[0024][0025]其中(u,v)是之前的原始图像坐标,透视变换矩阵为A;通过透视投影得到的转换后的坐标是(x,y),由下列公式计算:
[0026][0027][0028]通过4组坐标二元组[(u,v),(x,y)]就可以计算出8个未知数a
xx
,得到透视矩阵A,其中 (u,v)是原图中的坐标,(x,y)是模板中的对应坐标。
[0029]进一步地,所述步骤2中的文本检测训练集A为多张图像标注出其中含有文本的矩形框区域,文本识别训练集B分为两个训练集,B1为单个字符的二值化图像标注出其对应的单个字符内容,B2为单行连续字符的图像标注出其对应的连续字符串内容。
[0030]进一步地,所述模型F1的训练过程为:
[0031]使用步骤2建立的训练集A训练CTPN网络模型;
[0032]训练CTPN深度学习网络模型,反复迭代直至该模型参数权重最优;
[0033]根据最佳参数权重保存、建立文本检测模型F1;
[0034]所述模型F2

1的训练过程为:
[0035]使用大量单字符训练集B1训练Lenet卷积神经网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机打票据图像结构化识别方法,其特征在于:包括以下步骤:步骤1、采集某一类机打票据的多张图像,通过手工标注票据中的文本框坐标及其内容,保存为标注文件;步骤2、从步骤1的标注文件,结合文本检测及识别的公开数据集,制作成文本检测训练集A,文本识别训练集B,同时采集公开文本识别训练集C;步骤3、通过训练集A、B,分别训练机打票据的文本检测F1模型、文本识别F2模型,其中F2模型包括两个模型:一个为F2

1模型、识别单个字符的图像,一个为F2

2模型、识别连续字符的图像;步骤4、组合二值化、投影法、先验经验,建立单字符切割F5模型,首先当获取到某行文本所在的框,将这个框所在的坐标截取为图像,对图像进行去噪音和二值化操作;二值化后图像变为黑白图像,黑色为1值白色为0值,从上往下对图像进行投影,通过投影边界切割单字符;通过制作标准票据模板M1结合透视投影算法,建立票据图像矫正F4模型;步骤5、模型建立完成后,读取单张机打票据图像P1,输入到文本检测F1模型,模型F1自动将图像P1中的多个文本行检测出来;步骤6、对步骤5中检测到的多个文本行,在左上、左下、右上、右下四个角落,对其中字符串使用模型F5进行单字符切割,同时保存每个单字符的坐标;使用模型F2

1识别每个单字符,识别结果组成字符串;4个角落的字符串识别结果LF、LD、RF、RD;步骤7、对4个角落的识别结果分别使用票据标准模板M1进行匹配,票据标准模板M1中保存了四个角落的关键字及其坐标,使用LU

M、LB

M、RU

M、RB

M与LU、LB、RU、RB分别进行匹配,在每一个角落中确定一个文本行LU

1,LB

1,RU

1,RB

1用于矫正;步骤8、在步骤7得到了4个角落一共四行文本LU

1,LB

1,RU

1,RB

1,且保存了其中每个单字符的坐标,在步骤7中已知LF

M、LD

M、RF

M、RD

M关键字的单字坐标;因此推算出四组坐标一一对应的组合(LU

1、LU

M)(LB

1、LB

M)、(RU

1、RU

M)、(RB

1、RB

M);将这四组坐标输入到模型F4矫正,得到和票据标准模板M1相同标准票据尺寸的标准图像P2;步骤9、票据标准模板M1中有每个一一对应的KV结构的所处的矩形框坐标Loc,对于标准图像P2,使用模块F1检测出其中的文本行框,然后取所有Loc和所有文本行框的交集,得初始KV结构的文本框;步骤10、将步骤9中得到的文本框输入到印章消除模型F3中,通过自编码器对带有印章的图像先编码再解码,消除图像中的印章部分,重构图像,以达到消除印章的目的,得到最终KV结构的文本框;步骤11、将步骤10中得到的最终KV结构的文本框依次使用模型F2

2进行字符串识别,得到票据结构化识别结果。2.根据权利要求1所述的一种机打票据图像结构化识别方法,其特征在于:所述步骤8中模型F4的票据矫正过程如下:通...

【专利技术属性】
技术研发人员:刘贵松解修蕊丁浩伦蒋太翔罗珺方高强
申请(专利权)人:西南财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1