一种鱼眼镜头下中文场景文字检测与识别方法技术

技术编号：37444135 阅读：29 留言：0更新日期：2023-05-06 09:16

本发明专利技术公开了一种鱼眼镜头下中文场景文字检测与识别方法，所述方法包括文字检测模块和文字识别模块，分别用于检测与识别鱼眼镜头下中文场景中的文字；所述文字检测模块首先提取图像特征，然后通过回归预测薄板样条参数并对基准矩形进行薄板样条变换从而拟合文字区域形状，最后通过预测的文字语义分割结果约束回归位置从而提高检测精确率和召回率，完成文字检测；所述文字识别模块首先预测薄板样条参数并对图像进行薄板样条变换从而矫正鱼眼畸变，然后使用基于Transformer的编解码器预测文字，同时使用预训练的中文BERT模型约束预测文字语义，从而获得准确的文字识别结果；本发明专利技术可用于检测并识别存在严重畸变的鱼眼镜头下中文场景图像中的文字。下中文场景图像中的文字。下中文场景图像中的文字。

全部详细技术资料下载

【技术实现步骤摘要】
on Fisheye Cameras for Autonomous Driving: Dataset, Representations and Baseline [C]. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), January 2021: 2272
–
2280.
[0007][3] Kim H, Jung J, Paik J. Fisheye lens camera based surveillance system for wide field of view monitoring [J]. Optik, 2016, 127 (14): 5636
–
5646.
[0008][4] Qian Y, Yang M, Zhao X, et al. Oriented spatial transformer network for pedestrian detection using fish
...

【技术保护点】

【技术特征摘要】
1.一种鱼眼镜头下中文场景文字检测与识别方法，其特征在于：包括文字检测模块和文字识别模块；所述文字检测模块用于鱼眼镜头下中文场景中的文字位置定位和形状检测；所述文字识别模块用于识别文字检测模块检测到的文字；其中：所述文字检测模块包括如下步骤：所述文字检测模块使用ResNet50提取鱼眼镜头下中文场景图像特征，按照ResNet block从低层到高层将图像特征分为b1、b2、b3和b4；所述文字检测模块使用特征金字塔处理图像特征b4、b3和b2，获得多尺度图像特征p1、p2和p3；所述文字检测模块使用空洞空间金字塔池化处理图像特征b4，并与b1在1x1卷积运算后的结果相拼接得到图像特征p4；所述文字检测模块分别使用多尺度图像特征p1、p2和p3通过3x3卷积运算获得多组薄板样条参数pred
tps
，每组参数有2(k+3)个，并按顺序取前k+3个参数作为x轴方向的参数，取后k+3个参数作为y轴方向的参数，一组薄板样条参数Q如下公式所示；；其中，薄板样条参数Q的每个坐标方向上的k+3个参数中，前k个参数用于调整径向基函数值的权重，后3个参数用于调整待进行薄板样条变换的点本身坐标值的权重；所述文字检测模块对图像特征p4上采样得到文字语义分割结果pred
seg
，它是一个二分类的语义分割结果，其上的每一个位置的值表示是否采用此处的薄板样条参数，0表示不采用，1表示采用；所述文字检测模块通过文字语义分割结果pred
seg
确定所要采...

【专利技术属性】
技术研发人员：潘刚，董家佚，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人