当前位置: 首页 > 专利查询>厦门大学专利>正文

一种场景文本定位方法、装置、介质及产品制造方法及图纸

技术编号:41131808 阅读:17 留言:0更新日期:2024-04-30 18:01
本发明专利技术公开一种场景文本定位方法、装置、介质及产品,涉及文本定位技术领域,设计用于完成场景文本定位的训练好的场景文本定位模型包括依次连接的骨干网络、编码器、解码器和预测器,骨干网络包括依次连接的深度残差网络、特征金字塔网络和空洞处理器,预测器包括并联连接的文本长度预测头、文本位置预测头和文本内容预测头,通过设计骨干网络的具体结构,能够有效增强多尺度全局特征提取能力,后续只使用单一的解码器即可完成定位任务,且无需增加其它额外的预测任务进行强化监督,从而本发明专利技术可在降低模型后处理复杂度的同时提高模型定位精度,实现效果与效率的双提升。

【技术实现步骤摘要】

本专利技术涉及文本定位,特别是涉及一种场景文本定位方法、装置、介质及产品


技术介绍

1、自然场景中的文本包含着高层次的语义信息,是重要的信息源,这些信息可以广泛应用于各种基于计算机视觉的领域,例如自动驾驶和工业自动化。因此,有效检测与识别场景文本图片(即对包含文本的自然场景进行拍摄所得到的图片)中的文本,捕捉利用其中丰富而重要的信息,能够有效辅助设备获得更精确的环境信息,在人机交互等应用场景中扮演着重要的角色。

2、相比于常规物体,文本行长宽比例、角度方向、分布形式、形变程度、字体类型、语言种类、颜色亮度和残缺模糊等变化范围很大,而丰富、复杂的背景图像会引起文本的透视形变,其相似多样的纹理也增大了对文本的干扰性,此外,遮挡、低分辨率、失真、模糊、过低/高亮度、阴影等不完善的成像条件更增大了任务难度。

3、通常,场景文本检测为在完整的场景文本图片中检测文本并输出文本所在位置,场景文本识别为对已经检测提取的文本集中的裁剪图片进行文本内容的识别。场景文本定位算法自然利用场景文本检测和场景文本识别的任务关联性,通过构建统一的模型,实现从一本文档来自技高网...

【技术保护点】

1.一种场景文本定位方法,其特征在于,包括:

2.根据权利要求1所述的一种场景文本定位方法,其特征在于,以所述场景文本图片作为输入,利用训练好的场景文本定位模型进行场景文本定位,得到场景文本定位结果,具体包括:

3.根据权利要求1所述的一种场景文本定位方法,其特征在于,所述编码器包括依次连接的多层编码层,所述编码层为基于多尺度动态注意力机制的编码层;

4.根据权利要求2所述的一种场景文本定位方法,其特征在于,在以所述场景文本图片作为输入,利用训练好的场景文本定位模型进行场景文本定位,得到场景文本定位结果之前,还包括:

5.根据权利要求4所述...

【技术特征摘要】

1.一种场景文本定位方法,其特征在于,包括:

2.根据权利要求1所述的一种场景文本定位方法,其特征在于,以所述场景文本图片作为输入,利用训练好的场景文本定位模型进行场景文本定位,得到场景文本定位结果,具体包括:

3.根据权利要求1所述的一种场景文本定位方法,其特征在于,所述编码器包括依次连接的多层编码层,所述编码层为基于多尺度动态注意力机制的编码层;

4.根据权利要求2所述的一种场景文本定位方法,其特征在于,在以所述场景文本图片作为输入,利用训练好的场景文本定位模型进行场景文本定位,得到场景文本定位结果之前,还包括:

5.根据权利要求4所述的一种场景文本定位方法,其特征在于,在利用所述数据集对所述初始场景文本定位模型进行训练之前,还包括:对所述数据集进行数据增广,得到增广后数据集,并以所述增广后数据集作为新的数据集;所述数据增广包括随机裁剪、随机旋转和随机翻转。

【专利技术属性】
技术研发人员:郑冠仪邱明
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1