一种基于对比学习的光学字符识别方法和系统技术方案

技术编号：41133566 阅读：21 留言：0更新日期：2024-04-30 18:04

本发明专利技术提出了一种基于对比学习的光学字符识别方法和系统，提高建立文字底库，提取待识别文本图片文字字符特征，对文字字符特征进行训练，对文字字符特征进行特征相似度匹配，最后找出待识别文本图片中第t个字对应的底库文字并输出识别结果；对比学习中的个体判别任务是判断两个样本是否属于同一类，采用基于对比学习的光学字符识别方法(OCR)，将神经网络提取得到的文字特征进行相似度匹配，只有正负样本两个类别，使得识别不再受限于字库，对训练时没出现过的文字，只要提取其特征并加入底库即可识别，本发明专利技术的方法泛化能力较强，使用汉文训练模型在日文、韩文的表意文字体系上均有不错的表现，英文训练模型在拉丁语系上也有一定效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用与人工智能，具体涉及一种基于对比学习的光学字符识别方法和系统。

技术介绍

1、目前，光学字符识别方法(ocr)基本采用深度学习中分类任务的框架，传统的方法是将可识别的汉字限制在一个字库范围内，使用深度神经网络提取文字特征，再通过分类器得到该文字特征在字库上的概率分布，通过概率大小判别文字类别，在中文识别应用场景中，文字类别数通常在4000到10000之间，文字类别数过多则会导致训练收敛困难、增加推理耗时等问题。

2、在识别场景中的常用字符往往只有几百个，这不仅会导致大部分文字的训练样本只有几十个甚至几个，而且还会导致数据分布严重长尾的问题，当字库中文字数量较大时会增加训练和推理的成本，加上受到数据长尾分布影响严重，对于不常见文字的识别往往会有较差的识别效果，除此之外，这种光学字符识别方法(ocr)方法也无法处理不在字库中的文字。

技术实现思路

1、本专利技术针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

2、基于本专利技术的第一方...

【技术保护点】

1.一种基于对比学习的光学字符识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，S2中所述通过神经网络提取文本图片的深度特征并基于自注意力机制提取每个字符对应的特征，是使用基于Attention+RNN的文字识别结构提取单个文字特征，具体包括：

3.根据权利要求2所述的方法，其特征在于，S204中所述计算所述第t个文字的隐含层特征和深度特征具体包括：

4.根据权利要求1所述的方法，其特征在于，S5中所述找出第t个文字对应的底库文字具体包括：

5.一种基于对比学习的光学字符识别系统，其特征在于，包括：

6.根...

【技术特征摘要】

1.一种基于对比学习的光学字符识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，s2中所述通过神经网络提取文本图片的深度特征并基于自注意力机制提取每个字符对应的特征，是使用基于attention+rnn的文字识别结构提取单个文字特征，具体包括：

3.根据权利要求2所述的方法，其特征在于，s204中所述计算所述第t个文字的隐含层特征和深度特征具体包括：

4.根据权利要求1所述的方法，其特征在于，s5中所述找出第t个文字对应的底库文字具体包括：

5.一种基于对比学习的光学字符识别系统，其特征在于，包括：

6.根据权利要求5所述的系统...

【专利技术属性】
技术研发人员：王文烨，魏超，陈子沣，陈毓靖，林文楷，张泽洋，
申请(专利权)人：厦门市美亚柏科信息安全研究所有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人