【技术实现步骤摘要】
一种基于字符特征摘要的端到端文本提取识别头方法
[0001]本专利技术属于深度学习
(Deep Learning)、
计算机视觉
(Computer Vision)、
端到端文本提取
(End
‑
to
‑
end Text Spotting)
,设计了一种用于两阶段端到端文本提取算法的快速高精度的基于字符特征摘要的文本提取识别头算法
。
技术介绍
[0002]端到端的文本提取是计算机视觉领域中的基础研究课题,其主要任务是端到端的从给定的一张图片中检测文本的位置并识别每个文本区域的文本内容
。
目前,主流的端到端文本提取算法采用共享图像特征提取主干网络,用于检测文本位置的检测头与用于识别文本内容的识别头相分离的网络架构进行端到端的文本提取
。
在推理流程上,首先使用主干网络对输入图像进行特征提取以得到输入图像的特征谱
。
随后将特征谱作为输入,使用检测头定位文本的边框位置
。 >最后根据得到的文本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于字符特征摘要的端到端文本提取识别头方法,该方法中包括主干网络检测头特性形状对齐模块
、
特征下采样模块
、N
个字符特征摘要模块
、N
个字符预测模块
、
结果选择模块,方法步骤包括:步骤1:特征下采样;首先对输入的图像进行主干网络检测头特征形状对齐,对齐后得到形状为
C1×
h
×
w
的文本特征
F
t
,其中
C1为特征通道数,
h
为高度,
w
为宽度;然后级联
M+1
个由卷积层
、
批归一化层和
ReLU
激活函数组成的
ConvBN
模块,其中第1个
ConvBN
模块用于进行通道下采样,将特征通道数下采样为
C2,后
M
个
ConvBN
模块用于进行高度下采样,将高度下采样为1,具体过程如下:下:其中,其中,表示卷积核大小为
k
h
×
k
w
,步长为
s
h
×
s
w
的卷积层,
BN(
·
)
为批归一化层,
ReLU(
·
)
为
ReLU
激活层,除此之外,将最后一个
ConvBN
模块的输出重命名为
F
r
,作为该模块的输出,
F
r
的形状为
C2×1×
w
;步骤2:级联字符特征摘要;由于通道高度下采样后的文本特征
F
r
为文本图像的局部特征,难以表征字符的全局特征,该模块通过级联
N
个字符特征摘要模块,分
N
个阶段逐步从文本的局部特征提取字符的全局摘要特征;字符特征摘要模块包含全局特征提取支路和历史字符特征摘要支路;对于第
k
个模块,输入为第
k
‑1个模块的字符全局特征提取结果和历史字符摘要特征首先,将对进一步提取当前阶段的全局字符特征随后,为了充分利用前面模块所提取的特征,还将把和进行摘要融合,分别生成两个当前阶段的历史字符特征摘要结果和其中用于作为下一个模块的历史字符摘要特征输入,用于进行字符预测;具体过程如下,对于第
k
个阶段:个阶段:个阶段:个阶段:其中,为第
k
阶段的字符全局特征提取结果,为...
【专利技术属性】
技术研发人员:李宏亮,龚传阳,郝昕鹏,唐世渊,矫健,邱荷茜,王岚晓,许林峰,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。