【技术实现步骤摘要】
一种基于多尺度特征金字塔的场景文本检测方法及系统
[0001]本公开属于计算机视觉
,尤其涉及一种基于多尺度特征金字塔的场景文本检测方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]自然场景下的文字检测与识别技术是计算机视觉领域的研究热点,大量的研究人员对该方向进行了长期的探索,自然场景中的文字提取技术研究成果可以应用到智能城市交通系统、盲人视觉辅助系统、无人驾驶技术和工业自动化系统等领域。与传统的光学字符提取技术不同,自然场景中包含了丰富的场景信息,自然场景中的文字面临着字体多变、背景复杂、图像质量低等诸多难点,有效提高场景文字提取的准确率具有重要的实际应用价值。
[0004]场景文本是指存在于任意场景下的文本内容,例如道路路牌、广告牌、商场指示牌、商品包装等;其目的是对自然图像中每个文本实例的区域或包围框进行定位;它的发展历程与绝大多数的计算机视觉任务相似;在深度学习方法尚未占据主导地位之前,文本检测主要是以手动提取特征为主;传 ...
【技术保护点】
【技术特征摘要】
1.一种基于多尺度特征金字塔的场景文本检测方法,其特征在于,包括:输入图像,对图像的场景文本进行标注;获取文本位置标定好的数据集,将数据集分为训练集和测试集;采用特征金字塔网络,对训练集进行自上而下的特征提取,同时,在特征金字塔网络的C2层对训练集进行不同尺度的特征提取;采用特征融合网络,对自上而下特征提取的输出特征在C2层与不同尺度特征提取的输出特征进行融合,得到融合后的特征图;将融合后的特征图与特征金字塔网络其他层的支路输出的特征融合映射,得到训练模型;用测试集验证模型的有效性;利用测试后的模型对图像的场景文本进行检测。2.如权利要求1所述的一种基于多尺度特征金字塔的场景文本检测方法,其特征在于,每个图像都有属于自己的标注txt文件;单个图像中,标注文件每一行代表一个文本目标,前八个数字为矩形文本框四个顶点的坐标信息,最后一列是文本的字符内容。3.如权利要求1所述的一种基于多尺度特征金字塔的场景文本检测方法,其特征在于,特征提取网络的基础框架为ResNet50网络,初步提取特征的网络为特征金字塔网络,在特征金字塔网络的C2层融合多尺度模块,用于提取不同尺度的特征;所述多尺度模块采用空洞卷积,并引入多尺度信息;该模块在不改变特征图大小的同时控制感受野。4.如权利要求3所述的一种基于多尺度特征金字塔的场景文本检测方法,其特征在于,所述多尺度模块包括:一个全局平均池化层,得到image
‑
level特征,然后进行1
×
1卷积,双线性插值到原始大小;一个1
×
1卷积层,以及三个3
×
3的空洞卷积;将5个不同尺度的特征在通道维度concat在一起,然后送入1
×
1的卷积进行融合输出。5.如权利要求1所述的一种基于多尺度特征金字塔的场景文本检测方法,其特征在于,对自上而下特征提取的输出特征在C2层与不同尺度特征提取的输出特征进行融合过程为:特征金字塔网络自上而下的过程采用上采样进行,将C5层的输出P5上采样处理...
【专利技术属性】
技术研发人员:万洪林,王嘉鑫,赵莹莹,王晓敏,
申请(专利权)人:山东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。