一种从合同简体迁移到繁体的光学字符联合训练及识别方法技术

技术编号:25599791 阅读:29 留言:0更新日期:2020-09-11 23:57
本发明专利技术公开了一种从合同简体迁移到繁体的光学字符联合训练及识别方法,包括:建立多任务字符识别模型;将多任务字符识别模型进行训练,得到训练后的多任务字符识别模型;向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片,得到各子任务的识别结果以及直接解码的识别结果,然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正,得到识别结果。本发明专利技术通过多个拟人策略多任务模块联合训练方式加强模型对文字形态特征挖掘,通用简单特征的理解,能够增加模型的鲁棒性,减少训练数据量,加快模型的构件速度。

【技术实现步骤摘要】
一种从合同简体迁移到繁体的光学字符联合训练及识别方法
本专利技术涉及深度学习与光学文字识别的
,具体涉及一种从合同简体迁移到繁体的光学字符联合训练及识别方法。
技术介绍
在信息云上化的趋势下,线下合同线上管理的需求日益显著。当前技术对于合同中常见简体文字的ocr识别(ocr为OpticalCharacterRecognition,光学字符识别),已经较为成熟。传统的识别模型可分为编码端和解码端。其中解码端任务本质上是针对每行文本小区域的分类任务,然后寻优找出整个待识别区域的最大概率文字序列。一般而言,在有充足的高质量训练数据条件下,模型才能训练出较好的结果。而由于港澳和台湾用户使用的合同更多是以繁体文字书写。不同于简体的识别,繁体文字与简体文字相比笔画更多字形结构更复杂,更考验模型对字形结构细节的特征的挖掘能力。一般而言,训练繁体识别需要先采集大量繁体合同扫描件作为训练数据。但由于合同是企业业务强相关的法律高保密性文件,内地中小型企业很难采集到一定量的繁体合同数据,甚至简体合同量也相对不足。尽管本司已经积累了大量高质量简体合同扫描件ocr数据,但繁体合同的数据也是较为稀缺的。因此采用常规思路训练模型识别包括繁体字的那个内容,也必然因为训练数据不均衡,导致识别系统精度较低。实际上,通过拟人识字的思路,一个认识简体字的人能很快认识繁体字。原因在于繁体文字与简体文字相比形态更复杂,但结构特征和简体互通甚至更为明显。因此在已有的对简体字识别较好的模型,结合结构特征能更低成本的迁移到繁体合同的识别场景下,具有降本增效的价值。
技术实现思路
本专利技术提供了一种从合同简体迁移到繁体的光学字符联合训练及识别方法,通过多个拟人策略multi-task(多任务模块)联合训练方式加强模型对文字形态特征挖掘,通用简单特征的理解,能够增加模型的鲁棒性,减少训练数据量,加快模型的构件速度。一种从合同简体迁移到繁体的光学字符联合训练及识别方法,包括:1)建立多任务字符识别模型;2)将多任务字符识别模型进行训练,得到训练后的多任务字符识别模型;3)向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片,得到各子任务的识别结果以及直接解码的识别结果,子任务的识别结果包括子任务检测文字的数量、子任务解码序列、子任务解码序列长度,直接解码的识别结果包括解码文字序列、解码文字序列长度,然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离(即各子任务的识别结果转成为直接解码的识别结果的最少编辑操作次数)联合修正,得到识别结果。步骤1)中,建立多任务字符识别模型,具体包括:1.1在字符识别模型基础上增加多任务模块,所述的多任务模块包括:文字拆解预测子模块、字数统计预测子模块、笔画区间预测子模块、异常文字检查子模块、文字结构分类子模块;1.2将解码模块和多任务模块合并,形成多任务字符识别模型;步骤2)中,将多任务字符识别模型进行训练,具体包括:2.1构造特征训练字典;2.2将训练样本转化为异常文字检查结果和字数统计预测结果,利用特征训练字典将训练样本转化为文字拆解预测结果、笔画区间预测结果和文字结构分类结果;2.3将文字拆解预测结果、字数统计预测结果、笔画区间预测结果、异常文字检查结果、文字结构分类结果输入到多任务模块中,采用总误差函数进行训练,得到训练后的多任务字符识别模型;步骤2.1中,所述的特征训练字典具体包括:2.1.1笔画区间字典,根据简体字与繁体字的笔画数划分为笔画数1-8的第一列表、笔画数9-15的第二列表、笔画数16-25的第三列表、笔画数大于25的第四列表;2.1.2原子字字典,对简体字与繁体字进行逐字筛选,选出同时满足以下特征的字:1.无法被拆解为另外一个笔画区间在[a,b]的字;2.该文字被数量多于阙值r的字包含。然后按笔画大小递减排列,值得说明原子字是常见的并且不存在互相包含关系。其中a,b,r是按照具体问题调整的超参数。值得说明在字典中会增加一个特殊字符表示存在一个字在满足当前条件下无法找到该字原子组成成分。2.1.3文字结构字典,包括包含及半包含关系的第一类文字、左右结构的第二类文字、上下结构的第三类文字、三字结构的第四类文字、其他的第五类文字。步骤2.3中,所述的总误差函数为,其中,J(θ)表示总误差函数,θ表示整个网络的参数集合,Ltaski表示第i个任务的误差,αi为对应第i个任务的超参数,用于体现不同误差之间的权重。λ为学习速率参数。Linit表示解码模块的初始误差。Ltaski的第1个任务的误差为笔画区间误差Ltaski的第2个任务的误差为文字结构分类误差为Ltaski的第3个任务的误差为多分类包含文字误差Ltaski的第4个任务的误差为图片文字统计数量误差Ltaski的第5个任务的误差为异常文字二分类误差其中,D表示训练样本的规模,i为训练样本的序号,Ti表示第i个训练样本中的字序列;是针对第i个训练样本第t个字序列所在的笔画区间标准值;是针对第i个训练样本第t个字序列所在的结构分类槽位;是针对第i个训练样本第t个字序列相关字多分类误差的标准槽位;m(i)是针对第i个训练样本中出现的待识别文字量的计数;是针对第i个训练样本中第t个字序列出现的异常文字的标记槽位;分别是神经网络分支解码的结果,L为回归问题损失函数,L′为分类问题损失函数步骤3)中,所述的子任务解码序列包括文字拆解序列、笔画区间序列和文字结构序列;所述的子任务解码序列长度为文字拆解序列、笔画区间序列和文字结构序列的解码序列长度。通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正,具体包括:3.1对于待识的包含简体字和繁体字的合同图片,判断子任务解码序列长度是否相同;3.2如果子任务解码序列长度不同,采用语言模型直接修正,得到识别结果;如果子任务解码序列长度相同,则判断解码文字序列长度是否大于子任务检测文字的数量;3.3如果解码文字序列长度是大于子任务检测文字的数量,则分别计算解码文字序列到3个子任务序列进行删除,产生三个序列最小编辑代价数记为a1,a2,a3,判断a1,a2,a3是否低于阈值;3.4如果a1,a2,a3不低于阈值,则采用语言模型修正,得到识别结果;如果a1,a2,a3低于阈值,则按照最小编辑代价操作对识别的原始序列进行删除替换操作,之后筛选替换字符集,然后采用语言模型修正,得到识别结果;3.5如果解码文字序列长度等于子任务检测文字的数量,则标记解码序列中异常高于阈值的文字,采用语言模型修正,得到识别结果;3.6如果解码文字序列长度小于子任务检测文字的数量,则分别计算解码文字序列到3个子任务序列进行插入,产生三个序列最小编辑代价数记为a1,a2,a3,判断a1,a2,a3是否低于阈值;3.7如果a1,a2,a3不低于阈值,则采用语言模型修正,得到识别结果;如果本文档来自技高网
...

【技术保护点】
1.一种从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,包括以下步骤:/n1)建立多任务字符识别模型;/n2)将多任务字符识别模型进行训练,得到训练后的多任务字符识别模型;/n3)向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片,得到各子任务的识别结果以及直接解码的识别结果,子任务的识别结果包括子任务检测文字的数量、子任务解码序列、子任务解码序列长度,直接解码的识别结果包括解码文字序列、解码文字序列长度,然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正,得到识别结果。/n

【技术特征摘要】
1.一种从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,包括以下步骤:
1)建立多任务字符识别模型;
2)将多任务字符识别模型进行训练,得到训练后的多任务字符识别模型;
3)向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片,得到各子任务的识别结果以及直接解码的识别结果,子任务的识别结果包括子任务检测文字的数量、子任务解码序列、子任务解码序列长度,直接解码的识别结果包括解码文字序列、解码文字序列长度,然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正,得到识别结果。


2.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,步骤1)中,建立多任务字符识别模型,具体包括:
1.1在字符识别模型基础上增加多任务模块,所述的多任务模块包括:文字拆解预测子模块、字数统计预测子模块、笔画区间预测子模块、异常文字检查子模块、文字结构分类子模块;
1.2将解码模块和多任务模块合并,形成多任务字符识别模型。


3.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,步骤2)中,将多任务字符识别模型进行训练,具体包括:
2.1构造特征训练字典;
2.2将训练样本转化为异常文字检查结果和字数统计预测结果,利用特征训练字典将训练样本转化为文字拆解预测结果、笔画区间预测结果和文字结构分类结果;
2.3将文字拆解预测结果、字数统计预测结果、笔画区间预测结果、异常文字检查结果、文字结构分类结果输入到多任务模块中,采用总误差函数进行训练,得到训练后的多任务字符识别模型。


4.根据权利要求3所述的从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,步骤2.1中,所述的特征训练字典具体包括:
2.1.1笔画区间字典,根据简体字与繁体字的笔画数划分为笔画数1-8的第一列表、笔画数9-15的第二列表、笔画数16-25的第三列表、笔画数大于25的第四列表;
2.1.2原子字字典,对简体字与繁体字进行逐字筛选,选出同时满足以下特征的字:1.无法被拆解为另外一个笔画区间在[a,b]的字;2.该文字被数量多于阙值r的字包含,其中a,b,r是按照具体问题调整的超参数;
2.1.3文字结构字典,包括包含及半包含关系的第一类文字、左右结构的第二类文字、上下结构的第三类文字、三字结构的第四类文字、其他的第五类文字。


5.根据权利要求3所述的从合同简体迁移到繁体的光学字符联合训练及识别方法,其特征在于,步骤2.3中,所述的总误差函数为,其中,J(θ)表示总误差函数,θ表示整个网络的参数集合,Ltaski表示第i个任务的误差,αi为对应第i个任务的超参数,λ为学习速率参数,Lin...

【专利技术属性】
技术研发人员:谢泽星吴青昀徐俊杰
申请(专利权)人:杭州尚尚签网络科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1