当前位置: 首页 > 专利查询>盐城工学院专利>正文

一种基于深度学习和树莓派的不规则文本识别方法技术

技术编号:44854234 阅读:38 留言:0更新日期:2025-04-01 19:47
本发明专利技术公开了一种基于深度学习和树莓派的不规则文本识别方法,首先进行数据预处理,输入图像和对应的文本区域标注,并对图像进行标准化和数据增强;通过主干网络进行特征提取,并在SPPF模块前添加改进的自注意力机制,提升特征的质量;进行文本区域提议,将提取的特征输入文本区域提议模块,并输出预测的文本区域;使用序列模型从提议的文本区域中识别文本内容;计算文本区域检测损失和文本识别损失的总损失;在训练过程中使用FP16和FP32两种精度进行计算;最后将算法部署在树莓派终端,解决实时场景不规则文本识别任务;可显著提升整个文本检测和识别系统的性能,使其在各种复杂场景下具有更高的准确性和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及文本检测和识别,具体为一种基于深度学习和树莓派的不规则文本识别方法


技术介绍

1、基于深度学习的文本检测在过去几年里取得了显著进展,主要得益于计算能力的提升、大规模标注数据集的出现以及深度学习模型架构的不断创新。

2、主流的ocr算法包括两阶段算法和端到端的算法。两阶段ocr算法一般由文本检测和文本识别算法两个部分构成,文本检测算法定位出输入图像中的文字区域,然后识别算法识别出图像中的文字内容。

3、端到端ocr算法使用一个模型同时完成文字检测和文字识别,其基本思想是共享同一个backbone网络,并设计不同的检测模块和识别模块,可以同时训练文本检测和文本识别。端到端的算法简化了流程,因此模型更小、处理速度更快。

4、tonghe等人提出了一种端到端规则文本识别模型textspotter,其中检测分支使用pvanet模型作为backbone,识别分支使用rnn模型,该模型将检测和识别统一到一个网络中进行训练,提升了检测效率,缺点是无法识别不规则文本。

5、pengyuanlyu和minghui本文档来自技高网...

【技术保护点】

1.一种基于深度学习和树莓派的不规则文本识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度学习和树莓派的不规则文本识别方法,其特征在于:步骤S2中,所述SKSAttention注意力机制通过自适应地选择合适的卷积核尺寸,从而提高模型在处理多尺度特征时的表现,并引入Swish激活函数,所述SKSAttention注意力机制流程流程步骤包括如下:

3.根据权利要求2所述的一种基于深度学习和树莓派的不规则文本识别方法,其特征在于:通过引入改进FeatureFusion特征整合模块,将Neck部分输出的三张不同尺寸的特征图输入到所述改进Featur...

【技术特征摘要】

1.一种基于深度学习和树莓派的不规则文本识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度学习和树莓派的不规则文本识别方法,其特征在于:步骤s2中,所述sksattention注意力机制通过自适应地选择合适的卷积核尺寸,从而提高模型在处理多尺度特征时的表现,并引入swish激活函数,所述sksattention注意力机制流程流程步骤包括如下:

3.根据权利要求2所述的一种基于深度学习和树莓派的不规则文本识别方法,其特征在于:通过引入改进featurefusion特征整合模块,将neck部分输出的三张不同尺寸的特征图输入到所述改进featurefusion特征整合模块,引入了特征增强模块和自适应特征融合模块,将fpn和pan生成的不同尺度的特征图有效融合为一张特征图u,具体步骤包括:

4.根据权利要求1所述的一种基于深度学习和树莓派的不规则文本识别...

【专利技术属性】
技术研发人员:杨明银王珏杨富华刘谢玉薛辉堂周月婷
申请(专利权)人:盐城工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1