一种从合同简体迁移到繁体的光学字符联合训练及识别方法技术

技术编号：25599791 阅读：29 留言：0更新日期：2020-09-11 23:57

本发明专利技术公开了一种从合同简体迁移到繁体的光学字符联合训练及识别方法，包括：建立多任务字符识别模型；将多任务字符识别模型进行训练，得到训练后的多任务字符识别模型；向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片，得到各子任务的识别结果以及直接解码的识别结果，然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正，得到识别结果。本发明专利技术通过多个拟人策略多任务模块联合训练方式加强模型对文字形态特征挖掘，通用简单特征的理解，能够增加模型的鲁棒性，减少训练数据量，加快模型的构件速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种从合同简体迁移到繁体的光学字符联合训练及识别方法
本专利技术涉及深度学习与光学文字识别的
，具体涉及一种从合同简体迁移到繁体的光学字符联合训练及识别方法。
技术介绍
在信息云上化的趋势下，线下合同线上管理的需求日益显著。当前技术对于合同中常见简体文字的ocr识别(ocr为OpticalCharacterRecognition，光学字符识别)，已经较为成熟。传统的识别模型可分为编码端和解码端。其中解码端任务本质上是针对每行文本小区域的分类任务，然后寻优找出整个待识别区域的最大概率文字序列。一般而言，在有充足的高质量训练数据条件下，模型才能训练出较好的结果。而由于港澳和台湾用户使用的合同更多是以繁体文字书写。不同于简体的识别，繁体文字与简体文字相比笔画更多字形结构更复杂，更考验模型对字形结构细节的特征的挖掘能力。一般而言，训练繁体识别需要先采集大量繁体合同扫描件作为训练数据。但由于合同是企业业务强相关的法律高保密性文件，内地中小型企业很难采集到一定量的繁体合同数据，甚至简体合同量也相对不足。尽管本司已经积累了大量高质量简体合同扫描件ocr数据，但繁体合同的数据也是较为稀缺的。因此采用常规思路训练模型识别包括繁体字的那个内容，也必然因为训练数据不均衡，导致识别系统精度较低。实际上，通过拟人识字的思路，一个认识简体字的人能很快认识繁体字。原因在于繁体文字与简体文字相比形态更复杂，但结构特征和简体互通甚至更为明显。因此在已有的对简体字识别较好的模型，结合结构特征能更低成本的迁移到繁体合同的识别场景下，...

【技术保护点】
1.一种从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，包括以下步骤：/n1)建立多任务字符识别模型；/n2)将多任务字符识别模型进行训练，得到训练后的多任务字符识别模型；/n3)向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片，得到各子任务的识别结果以及直接解码的识别结果，子任务的识别结果包括子任务检测文字的数量、子任务解码序列、子任务解码序列长度，直接解码的识别结果包括解码文字序列、解码文字序列长度，然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正，得到识别结果。/n

【技术特征摘要】
1.一种从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，包括以下步骤：
1)建立多任务字符识别模型；
2)将多任务字符识别模型进行训练，得到训练后的多任务字符识别模型；
3)向训练后的多任务字符识别模型输入包含简体字和繁体字的合同图片，得到各子任务的识别结果以及直接解码的识别结果，子任务的识别结果包括子任务检测文字的数量、子任务解码序列、子任务解码序列长度，直接解码的识别结果包括解码文字序列、解码文字序列长度，然后通过分别比较各子任务的识别结果与直接解码的识别结果间的编辑距离联合修正，得到识别结果。

2.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，步骤1)中，建立多任务字符识别模型，具体包括：
1.1在字符识别模型基础上增加多任务模块，所述的多任务模块包括：文字拆解预测子模块、字数统计预测子模块、笔画区间预测子模块、异常文字检查子模块、文字结构分类子模块；
1.2将解码模块和多任务模块合并，形成多任务字符识别模型。

3.根据权利要求1所述的从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，步骤2)中，将多任务字符识别模型进行训练，具体包括：
2.1构造特征训练字典；
2.2将训练样本转化为异常文字检查结果和字数统计预测结果，利用特征训练字典将训练样本转化为文字拆解预测结果、笔画区间预测结果和文字结构分类结果；
2.3将文字拆解预测结果、字数统计预测结果、笔画区间预测结果、异常文字检查结果、文字结构分类结果输入到多任务模块中，采用总误差函数进行训练，得到训练后的多任务字符识别模型。

4.根据权利要求3所述的从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，步骤2.1中，所述的特征训练字典具体包括：
2.1.1笔画区间字典，根据简体字与繁体字的笔画数划分为笔画数1-8的第一列表、笔画数9-15的第二列表、笔画数16-25的第三列表、笔画数大于25的第四列表；
2.1.2原子字字典，对简体字与繁体字进行逐字筛选，选出同时满足以下特征的字：1.无法被拆解为另外一个笔画区间在[a,b]的字；2.该文字被数量多于阙值r的字包含，其中a,b,r是按照具体问题调整的超参数；
2.1.3文字结构字典，包括包含及半包含关系的第一类文字、左右结构的第二类文字、上下结构的第三类文字、三字结构的第四类文字、其他的第五类文字。

5.根据权利要求3所述的从合同简体迁移到繁体的光学字符联合训练及识别方法，其特征在于，步骤2.3中，所述的总误差函数为，其中，J(θ)表示总误差函数，θ表示整个网络的参数集合，Ltaski表示第i个任务的误差，αi为对应第i个任务的超参数，λ为学习速率参数，Lin...

【专利技术属性】
技术研发人员：谢泽星，吴青昀，徐俊杰，
申请(专利权)人：杭州尚尚签网络科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人