【技术实现步骤摘要】
本专利技术涉及文本检测和识别,具体为一种基于深度学习和树莓派的不规则文本识别方法。
技术介绍
1、基于深度学习的文本检测在过去几年里取得了显著进展,主要得益于计算能力的提升、大规模标注数据集的出现以及深度学习模型架构的不断创新。
2、主流的ocr算法包括两阶段算法和端到端的算法。两阶段ocr算法一般由文本检测和文本识别算法两个部分构成,文本检测算法定位出输入图像中的文字区域,然后识别算法识别出图像中的文字内容。
3、端到端ocr算法使用一个模型同时完成文字检测和文字识别,其基本思想是共享同一个backbone网络,并设计不同的检测模块和识别模块,可以同时训练文本检测和文本识别。端到端的算法简化了流程,因此模型更小、处理速度更快。
4、tonghe等人提出了一种端到端规则文本识别模型textspotter,其中检测分支使用pvanet模型作为backbone,识别分支使用rnn模型,该模型将检测和识别统一到一个网络中进行训练,提升了检测效率,缺点是无法识别不规则文本。
5、pengyuanl
...【技术保护点】
1.一种基于深度学习和树莓派的不规则文本识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于深度学习和树莓派的不规则文本识别方法,其特征在于:步骤S2中,所述SKSAttention注意力机制通过自适应地选择合适的卷积核尺寸,从而提高模型在处理多尺度特征时的表现,并引入Swish激活函数,所述SKSAttention注意力机制流程流程步骤包括如下:
3.根据权利要求2所述的一种基于深度学习和树莓派的不规则文本识别方法,其特征在于:通过引入改进FeatureFusion特征整合模块,将Neck部分输出的三张不同尺寸的特征图输入到
...【技术特征摘要】
1.一种基于深度学习和树莓派的不规则文本识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于深度学习和树莓派的不规则文本识别方法,其特征在于:步骤s2中,所述sksattention注意力机制通过自适应地选择合适的卷积核尺寸,从而提高模型在处理多尺度特征时的表现,并引入swish激活函数,所述sksattention注意力机制流程流程步骤包括如下:
3.根据权利要求2所述的一种基于深度学习和树莓派的不规则文本识别方法,其特征在于:通过引入改进featurefusion特征整合模块,将neck部分输出的三张不同尺寸的特征图输入到所述改进featurefusion特征整合模块,引入了特征增强模块和自适应特征融合模块,将fpn和pan生成的不同尺度的特征图有效融合为一张特征图u,具体步骤包括:
4.根据权利要求1所述的一种基于深度学习和树莓派的不规则文本识别...
【专利技术属性】
技术研发人员:杨明银,王珏,杨富华,刘谢玉,薛辉堂,周月婷,
申请(专利权)人:盐城工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。