一种识别模型的训练方法及训练装置制造方法及图纸

技术编号：33307011 阅读：9 留言：0更新日期：2022-05-06 12:17

本说明书公开了一种识别模型的训练方法及训练装置，该识别模型的训练方法包括：获取各样本图像，所述各样本图像中包含有文字信息，将所述各样本图像输入到识别模型中，确定所述各样本图像中包含的各字符对应的字符特征图，通过所述识别模型将所述各字符对应的字符特征图投影到高维空间中，确定所述各字符对应的字符特征图在所述高维空间中的字符特征表示，以不同形态的相同字符的字符特征表示靠近同一特征中心，不同特征中心在所述高维空间中的距离越远为优化目标，调整不同特征中心在所述高维空间中的位置，以对所述识别模型进行训练，其中，所述高维空间的不同特征中心对应不同的字符。不同的字符。不同的字符。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别模型的训练方法及训练装置

[0001]本说明书涉及文字识别
，尤其涉及一种识别模型的训练方法及训练装置

技术介绍

[0002]随着科技的发展，文字识别技术已经被应用到诸如远程身份认证、财税报销、内容审核以及文档电子化等各个场景当中，在缩减人力成本的同时，也为用户的工作生活提供了极大的便利，在文字识别的过程中，识别模型的准确性往往对文字识别的结果起着至关重要的作用。
[0003]然而，如果采用有监督学习的方式对识别模型进行训练，若想达到训练效果就需要消耗大量的人工成本及时间来对样本数据进行标注，而若是采用其他的训练方法，则无法对无标签训练样本达到充分的利用，而且限制了识别模型准确率。
[0004]因此，如何在减小模型训练的人工成本和时间的同时，提高识别模型的准确率，是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种识别模型的训练方法及训练装置，以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案：
[0007]本说明书提供了一种识别模型的训练方法，包括：
[0008]获取各样本图像，所述各样本图像中包含有文字信息；
[0009]将所述各样本图像输入到识别模型中，确定所述各样本图像中包含的各字符对应的字符特征图；
[0010]通过所述识别模型将所述各字符对应的字符特征图投影到高维空间中，确定所述各字符对应的字符特征图在所述高维空间中的字符特征表示；
[0011]以不同形态的相同字符的字符特征...

【技术保护点】

【技术特征摘要】
1.一种识别模型的训练方法，其特征在于，包括：获取各样本图像，所述各样本图像中包含有文字信息；将所述各样本图像输入到识别模型中，确定所述各样本图像中包含的各字符对应的字符特征图；通过所述识别模型将所述各字符对应的字符特征图投影到高维空间中，确定所述各字符对应的字符特征图在所述高维空间中的字符特征表示；以不同形态的相同字符的字符特征表示靠近同一特征中心，不同特征中心在所述高维空间中的距离越远为优化目标，调整不同特征中心在所述高维空间中的位置，以对所述识别模型进行训练，其中，所述高维空间的不同特征中心对应不同的字符。2.如权利要求1所述的方法，其特征在于，将所述各样本图像输入到识别模型中，确定所述各样本图像中包含的各字符对应的字符特征图，具体包括：将所述各样本图像输入到识别模型中，确定所述各样本图像对应的各字符串特征图，其中，每一字符串特征图对应一个字符串；对所述各字符串特征图进行分割，以确定所述各样本图像中包含的各字符对应的字符特征图。3.如权利要求2所述的方法，其特征在于，对所述各字符串特征图进行分割，以确定所述各样本图像中包含的各字符对应的字符特征图，具体包括：针对每一样本图像，对该样本图像对应的字符串特征图进行分割，得到该样本图像中包含的每一子特征图；保留包含至少部分字符特征的子特征图，作为该样本图像中包含的各字符对应的字符特征图。4.如权利要求1所述的方法，其特征在于，通过所述识别模型将所述各字符对应的字符特征图投影到高维空间中，确定所述各字符对应的字符特征图在所述高维空间中的字符特征表示，具体包括：将所述各样本图像输入所述识别模型中，确定所述各样本图像中包含的每一字符的识别结果，以及每一字符的识别结果对应的准确率；根据所述每一字符的识别结果对应的准确率，滤除所述准确率低于预设阈值的字符特征图；将滤除后的字符特征图投影到高维空间中，确定滤除后的各字符特征图在所述高维空间中的字符特征表示。5.如权利要求1所述的方法，其特征在于，以不同形态的相同字符的字符特征表示靠近同一特征中心，不同特征中心在所述高维空间中的距离越远为优化目标，调整不同特征中心在所述高维空间中的位置，以对所述识别模型进行训练，具体包括：根据所述高维空间中每一字符特征表示与每一样本中心之间的距离，确定所述识别模型的对比损失函数的损失值，其中，不同形态的相同字符的字符特征表示越靠近同一特征中心，所述对比损失函数的损失值越小，不同特征中心在所述高维空间中的距离越远，所述对比损...

【专利技术属性】
技术研发人员：姜仟艺，宋祺，魏晓明，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人