模型训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:28321808 阅读:24 留言:0更新日期:2021-05-04 13:02
本申请涉及一种用于票据字符识别的模型训练方法、装置、计算机设备和存储介质。所述方法包括:获取票据字符样本;所述票据字符样本中包括至少两个字符;获取所述至少两个字符中每一字符的字符样本特征;所述字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征;基于所述至少两个字符中、每一字符的字符样本特征,对与所述至少两个字符对应的票据字符样本进行识别,得到样本识别结果,以便使用所述样本识别结果对票据识别模型进行训练,得到目标票据识别模型;所述目标票据识别模型用于对票据上的字符进行识别。采用本方法能够显著提升票据字符识别准确率。

【技术实现步骤摘要】
模型训练方法、装置、计算机设备和存储介质
本申请涉及字符识别
,特别是涉及一种用于票据字符识别的模型训练方法、装置、计算机设备和存储介质。
技术介绍
随着字符识别技术的发展,出现了光学字符识别(OCR,OpticalCharacterRecognition)技术,OCR采用光学方式检测图像中的明、暗模式,并通过预训练模型识别图像中的字符,将字符转换成文本,便于通过文本处理软件进行编辑和加工。目前的OCR模型通常根据全字符来生成训练样本,例如,在训练汉字识别模型时,是基于中文编码字符集GB18030中收录的70244个汉字来生成训练样本的。根据全字符生成训练样本,由于训练样本基数庞大,训练过程中需要耗费较多的运算资源,训练成本较高,而且,在样本基数庞大的情况下,通过增加样本数量来提升字符识别准确率,对识别准确率的提升效果有限,特别是对于特定应用领域,例如,可以训练票据识别模型对票据上的字符进行识别,当需要提高票据识别模型的识别准确率时,由于汉字字符基数庞大,需要增加较多的训练样本对票据识别模型进行训练,而训练后的模型对识别准确率的提本文档来自技高网...

【技术保护点】
1.一种用于票据字符识别的模型训练方法,其特征在于,所述方法包括:/n获取票据字符样本;所述票据字符样本中包括至少两个字符;/n获取所述至少两个字符中每一字符的字符样本特征;所述字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征;/n基于所述至少两个字符中、每一字符的字符样本特征,对与所述至少两个字符对应的票据字符样本进行识别,得到样本识别结果,以便使用所述样本识别结果对票据识别模型进行训练,得到目标票据识别模型;所述目标票据识别模型用于对票据上的字符进行识别。/n

【技术特征摘要】
1.一种用于票据字符识别的模型训练方法,其特征在于,所述方法包括:
获取票据字符样本;所述票据字符样本中包括至少两个字符;
获取所述至少两个字符中每一字符的字符样本特征;所述字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征;
基于所述至少两个字符中、每一字符的字符样本特征,对与所述至少两个字符对应的票据字符样本进行识别,得到样本识别结果,以便使用所述样本识别结果对票据识别模型进行训练,得到目标票据识别模型;所述目标票据识别模型用于对票据上的字符进行识别。


2.根据权利要求1所述的方法,其特征在于,所述获取票据字符样本,包括:
获取业务词汇集;所述业务词汇集中包含至少一个票据词汇;
计算所述至少一个票据词汇中的每一个票据词汇的占比值;
针对至少一个占比值中的每一占比值,当该占比值在预设占比区间内时,根据该占比值所对应的票据词汇生成票据字符样本。


3.根据权利要求2所述的方法,其特征在于,所述根据该占比值所对应的票据词汇生成票据字符样本,包括:
基于该占比值所对应的票据词汇中每一票据词汇的字体类型、字号以及位置信息,生成目标图片;
根据所述每一票据词汇的内容确定与该目标图片对应的内容信息;
基于目标图片,以及与该目标图片对应的内容信息生成所述票据字符样本。


4.根据权利要求2所述的方法,其特征在于,所述获取业务词汇集,包括:
获取初始词汇集;
对所述初始词汇集进行预处理操作,得到第一预处理词汇集;
从所述第一预处理词汇集中确定出第一业务词汇集;所述第一业务词汇集中包含至少一个第一业务词汇;
计算所述至少一个第一业务词汇中每一第一业务词汇的词频;
针对至少一个词频中的每一词频,当该词频超过预设阈值时,将该词频对应的第一业务词汇作为目标词汇;
将所述第一预处理词汇集中、除去至少一个目标词汇后的第一处理词汇集,作为所述业务词汇集。


5.根据权利要求1所述的方法,其特征在于,所述获取所述至少两个字符中每一字符的字符样本特征,包括:
通过将所述票据字符样本输入所述票据识别模型的卷积神经网络层,得到形状特征矩阵;所述形状特征矩阵用于表征所述字符的形状特征;
通过将所述形状特征矩阵输入所述票据识别模型的多通道特征提取层,得到多通...

【专利技术属性】
技术研发人员:周进洋
申请(专利权)人:中电金信软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1