LM滤波器组引导纹理特征自主学习的甲骨文字检测方法技术

技术编号:30897935 阅读:19 留言:0更新日期:2021-11-22 23:40
本发明专利技术公开一种LM滤波器组引导纹理特征自主学习的甲骨文字检测方法,首先,采用大津法和多条件连通区域填充算法得到输入图像I的粗去噪结果;其次,以VGG16网络为基础,在首端和末端各引进1组可训练卷积层,通过逐层冻结的训练方式,实现浅层特征和高层特征的知识迁移;然后,在网络前部引进1组Inception子网络,在网络后部引进1组Leung

【技术实现步骤摘要】
LM滤波器组引导纹理特征自主学习的甲骨文字检测方法


[0001]本专利技术涉及数字图像处理和古文字信息处理的交叉领域,尤其是一种可有效抵抗龟甲和兽骨所存在的点状噪声、钻凿坑洞、灼烧裂痕的干扰,能适应契刻过程所引起的文字行列分布规律不明显、线素方向复杂多变的特点,准确性高、鲁棒性好、角度自适应能力强的LM滤波器组引导纹理特征自主学习的甲骨文字检测方法。

技术介绍

[0002]作为计算甲骨学的重要基础研究领域之一,甲骨文字检测的根本目的是借助计算机视觉技术,在甲骨拓片图像上自动定位甲骨卜辞文字的区域位置,进而为刻辞文本识别及语义释读等环节提供字形图像或字形图像集合。它对于保证后续的文字分割和字形复原质量、提高字形特征提取和自动识别精度具有基础且重要的意义,亦是计算机辅助甲骨文字形研究、碎片缀合、文意释读等研究工作的基础任务。然而,欲在干扰严重、字迹与龟甲边缘相互混叠的复杂背景中实现甲骨卜辞文字的自动准确检测,至今仍是一项非常有挑战性的计算机视觉处理任务。
[0003]依据待检测的文字对象所处的年代,现有的文字检测技术包括面向现代文字的检测方法和面向古代文字的检测方法两大类。
[0004]首先,面向现代文字的检测技术可进一步被划分为四类:基于传统方法的文字检测、基于回归的深度学习文字检测、基于分割的深度学习文字检测、基于组件连接的深度学习文字检测。
[0005]⑴
在基于传统方法的文字检测方面,Epshtein等人在边缘检测结果的基础上,利用局部梯度选取成对边缘两端点并计算其宽度,从而区分笔画像素和非笔画像素,再通过过滤和合并连通域构成最终的文本行;Neumann等人采用最大稳定极值区域(Maximally Stable Extremal Regions,MSERs)检测得到MSERs集合,再利用支持向量机过滤集合中的非文本元素得到检测结果。不过,对于多方向、场景复杂的待检测图像,这一类方法无法取得有效的检测结果。
[0006]⑵
在基于回归的深度学习文字检测方面,廖明辉等人将SSD网络结构中用于实现多重特征融合的编码器替换为旋转敏感回归编码器,并将传统卷积结构替换为定向响应卷积,使得改进后的深度网络结构可以提取旋转敏感卷积特征;为克服SSD网络对于小目标检测鲁棒性差的不足,Shi等人提出一种文本检测框架TextBoxes,通过调整候选框默认长宽比、滤波器尺度,提升了深度网络对水平方向的长文本检测性能;为解决TextBoxes对于非水平方向文本检测效果不理想的问题,廖明辉等人将传统水平方向的候选框替换为带有方向信息的任意四边形候选框,融入了带有方向信息的回归损失,从而提出一种面向文字区域检测的TextBoxes++方法。上述几种技术的缺点在于,对文字的排布方向、字符间距存在较为明显的依赖性,当字符间距较大或者文字呈现曲线、垂直方向排列或者带有旋转角度的文本时,其检测性能尚不够令人满意。为克服这一不足,Zhou等人提出一种快速文本检测方法EAST,通过在确定候选区域时融入旋转角通道信息的方式生成文本四边形和带有角度
信息的文本区域候选框;He等人提出一种融合区域注意力机制的文本检测方法,利用文本注意力模块强化对文字特征的注意,引入层次式Inception模块增强网络对文本尺度的鲁棒性,进而融入角度信息以适应不同方向文本目标的检测场景;Zhang等人提出一种融合局部信息及全局信息的全卷积多方向文本检测方法,采用全卷积网络对文本块进行检测,结合MSER区域的局部信息对文本块进行文本行提取,从而通过一个全卷积网络获取字符质心的显著性区域映射;Busta等人提出一种整合文字检测与识别的可训练端到端框架,使用改进的YOLOv2框架进行特征提取及区域推荐得到候选区域,通过双线性采样将尺度不同的文本区域特征映射为尺度一致的变长特征序列,进而利用循环神经网络RNN计算概率矩阵,并借助CTC实现字符串区域判断。有研究表明,由于网络的感受野尺度有限,这一类方法大多对长文本的检测效果不理想,且在低对比度、密集文本、零散分布区域中的检测效果较差。
[0007]⑶
基于分割的深度学习文字检测方面,Deng等人基于实例分割思想,实现了像素级的文本判别预测及链接预测,即预测当前像素是否为文本像素以及像素间是否属于同一文本实例,提出了一种场景文本检测方法PixelLink;Li等人引进基于宽度优先搜索和尺度渐进的分割方式,提出了一种渐进式扩展网络PSENet,在一定程度上缓解了对行距较小的文本行被重叠识别的现象;Xu等人提出一种基于文本域的文本检测方法TextField,通过方向场的编码实现文本区域与非文本区域的分离;Yao等人对文本区域、字符以及相邻字符的链接方向概率等属性进行评估来构建图模型,从而提出一种基于HED模型的自然场景图像文本检测方法;Lyu等人使用角点检测器代替了传统的目标检测并融入位置信息,更好地适应不同的文字方向、长宽比及字形尺度,提出一种角点定位和区域分割的多角度场景文本检测方法Corner;Lyu等人采用ResNet作为主干网络来建立语义特征图,通过RPN分支确定候选区域,并由Faster

RCNN分支完成回归及分类任务,提出了一种用于任意形状文本检测识别的端到端神经网络Mask TextSpotter;Ye等人通过多路径特征融合策略设计了一种文本检测框架TextFuse,利用弱监督学习机制和单词级标注指导字符级训练样本的检索,从而实现了字符级实例的无标注学习和检测。遗憾的是,这一类方法对图像质量具有较高的要求,当待分析的图像出现模糊、亮度对比度不理想、文字被背景纹理遮挡、类文本区域混杂等情况时,其文字检测精度将出现显著下降。
[0008]⑷
基于组件连接的深度学习文字检测方面,Tian等人提出一种基于垂直锚点机制的文本检测方法CTPN,将候选框设置为较小的固定宽度,并将区域推荐时返回的参数数量缩减为两个,进而对候选框之间的垂直重叠度、间距等条件进行组件合并;Shi等人通过对连接关系的学习得到不同候选框的连接置信度,再对候选框进行连接得到文本行检测结果,从而提出了一种基于文本片段连接的文本检测方法SegLink;Beak等人采用卷积神经网络对文本区域之间的亲和度进行评价,实现由字符到单词实例的组装,进而提出了一种基于文本区域感知技术的文本检测方法CRAFT;Zhang等人以带有FPN的VGG16作为主干网络,利用共享卷积特征分析文本组件的几何属性,供局部图模块建立组件间的连接关系,再通过关系推理网络实现文本组件的组合,进而提出了一种深度关系推理图网络的文本检测方法。由于字符的连通域会直接影响网络对组件关系的判断,此类方法对于存在形变、间隔不均匀、版式排布复杂、笔画粘连情况的文字检测普遍表现出较大的敏感性,性能尚不具备较好的鲁棒性。
[0009]其次,面向古代文字的检测技术可进一步被划分为两类:基于传统图像处理方法
的文字检测、基于深度学习的古代文字检测。
[0010]⑴
基于传统图像处理方法的文字检测方面,史小松等人提出一种结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种LM滤波器组引导纹理特征自主学习的甲骨文字检测方法,其特征在于按照如下步骤进行:步骤1.建立并初始化用于甲骨刻辞文字检测的深度卷积神经网络N
obc
,包含1个用于特征提取的子网络N
feature
、1个用于甲骨文字区域建议的子网络N
rpn
、1个用于甲骨文字区域特征降维的子网络N
dim
和1个用于区域分类的子网络N
cls
;步骤1.1建立并初始化子网络N
feature
,含有2组以迁移方式完成训练的卷积层、4组以标准方式完成训练的卷积层、2组文本注意力模块、1组方向滤波器组层,分别为Trans1、Conv4、Inception1、Conv1、Conv2、Conv3、Attention1、Attention2、LM1,各层的前后布局顺序为Trans1、Inception1、Attention1、Conv1、Conv2、Attention2、Conv3、LM1、Conv4;所述Trans1包含3组卷积操作,分别为Trans
A
、Trans
B
、Trans
C
,其中,Trans
A
包含一层大小为3
×
3的、以Xavier方法进行初始化的16个卷积核;Trans
B
包含一层大小为3
×
3的、以Xavier方法进行初始化的16个卷积核;Trans
C
包含一层大小为3
×
3的、以Xavier方法进行初始化的16个卷积核;所述Inception1包含3组卷积操作,分别为Inception
A
、Inception
B
、Inception
C
,其中,Inception
A
包含一层大小为1
×
1的、以Xavier方法进行初始化的16个卷积核,记为Inception
A_1
,一层大小为1
×
1的、以Xavier方法进行初始化的64个卷积核,记为Inception
A_2
;Inception
B
包含一层大小为1
×
1的、以Xavier方法进行初始化的16个卷积核,记为Inception
B_1
,一层大小为3
×
3的、以Xavier方法进行初始化的32个卷积核,记为Inception
B_2
,一层大小为1
×
1的、以Xavier方法进行初始化的64个卷积核,记为Inception
B_3
;Inception
C
包含一层大小为1
×
1的、以Xavier方法进行初始化的16个卷积核,记为Inception
C_1
,一层大小为3
×
3的、以Xavier方法进行初始化的32个卷积核,记为Inception
C_2
,一层大小为3
×
3的、以Xavier方法进行初始化的48个卷积核,记为Inception
C_3
,一层大小为1
×
1的、以Xavier方法进行初始化的64个卷积核,记为Inception
C_4
;Inception
A
、Inception
B
、Inception
C
的输出分别为Output
inception_A
、Output
inception_B
、Output
inception_C
,并根据公式(1)的定义计算Inception1层的输出Output
inception
;Output
inception

(Output
inception_A
+Output
inception_B
+Output
inception_C
)
·
C
inception
ꢀꢀ
(1)其中,“·”表示内积运算,C
inception
表示一个预设的常量;所述Attention1模块包含三组卷积操作,分别记为Attention1_Unit_Conv_1、Attention1_Unit_Conv_2、Attention1_Unit_Conv_3,其中,Attention1_Unit_Conv_1包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention1_Unit_Conv_1_r1;Attention1_Unit_Conv_2包含一层大小为3
×
3、以Xavier方法进行初始化的1个卷积核,记为Attention1_Unit_Conv_2_r1,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为3的1个空洞卷积核,记为Attention1_Unit_Conv_2_r3,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为5的1个空洞卷积核,记为Attention1_Unit_Conv_2_r5,以及一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为7的1个空洞卷积核,记为Attention1_Unit_Conv_2_r7;Attention1_Unit_Conv_3包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention1_Unit_Conv_3_r1;所述Attention2模块包含三组卷积操作,分别记为Attention2_Unit_Conv_1、
Attention2_Unit_Conv_2、Attention2_Unit_Conv_3,其中,Attention2_Unit_Conv_1包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention2_Unit_Conv_1_r1;Attention2_Unit_Conv_2包含一层大小为3
×
3、以Xavier方法进行初始化的1个卷积核,记为Attention2_Unit_Conv_2_r1,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为3的1个空洞卷积核,记为Attention2_Unit_Conv_2_r3,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为5的1个空洞卷积核,记为Attention2_Unit_Conv_2_r5,以及一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为7的1个空洞卷积核,记为Attention2_Unit_Conv_2_r7;Attention2_Unit_Conv_3包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention2_Unit_Conv_3_r1;所述Conv1包含1层池化操作和2层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有128个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述Conv2包含1层池化操作和3层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有256个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述Conv3包含1层池化操作和3层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有512个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述Conv4包含1层池化操作和3层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有512个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述LM1包含1层Leung

Malik方向滤波操作,含有由公式(2)定义的6方向、3尺度的18个高斯1阶导数组成的边缘滤波器,由公式(3)定义的6方向、3尺度的18个高斯2阶导数组成的柱状滤波器,8个由公式(4)定义的高斯—拉普拉斯滤波器以及4个高斯滤波器;G

=G
x
cosθ+G
y
sinθ
ꢀꢀ
(2)G

=G
xx
cos2θ+G
yy
sin2θ

2G
xy
cosθsinθ
ꢀꢀ
(3)其中,G表示高斯核函数,G
x
表示G沿着水平方向的一阶偏导数,G
y
表示G沿着竖直方向的一阶偏导数,G
xx
表示G沿着水平方向的二阶偏导数,G
yy
表示G沿着竖直方向的二阶偏导数,G
xy
表示G的二阶混合偏导数,θ∈{0
°
,30
°
,60
°
,90
°
,120
°
,150
°
}表示边缘滤波器和柱状滤波器的角度,每个边缘滤波器和柱状滤波器各包含3个滤波尺度,分别为σ1、σ2、σ3,高斯—拉普拉斯滤波器包含8个滤波尺度,分别为高斯滤波器包含4个滤波尺度,分别为步骤1.2建立并初始化子网络N
rpn
,含有3组卷积层,分别为RpnConv、RpnPred和RpnScore;所述RpnConv包含1层卷积操作,含有512个大小为3
×
3的卷积核,每个卷积核以1个像素为步长、以SAME填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
所述RpnPred包含1层卷积操作,含有36个大小为1
×
1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;所述RpnScore包含1层卷积操作,含有18个大小为1
×
1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;步骤1.3建立并初始化子网络N
dim
,含有1组剪裁池化层和2组全连接层,分别为CropPool、Fc1和Fc2;所述CropPool包含1层缩放操作和1层池化操作,其中,缩放操作用于将候选区域的尺寸变换为14
×
14像素,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算;所述Fc1有4096个输出单元,并且采用ReLU激活函数,以Xavier方法进行权值初始化;所述Fc2有4096个输出单元,并且采用ReLU激活函数,以Xavier方法进行权值初始化;步骤1.4建立并初始化子网络N
cls
,含有2组全连接层,分别为Fc3和Fc4;所述Fc3有4096个输入单元和8个输出单元,并采用均值为0、标准差为0.001的高斯分布进行初始化;所述Fc4有4096个输入单元和2个输出单元,并采用均值为0、标准差为0.01的高斯分布进行初始化;步骤2.输入甲骨刻辞图像训练集和人工已标注的每幅训练图像的甲骨文字区域坐标集、甲骨文字区域标签集,对深度卷积神经网络N
obc
进行初始训练;步骤2.1对于训练集中的每幅图像T及其人工已标注的甲骨文字区域坐标集C
ref
和甲骨文字区域标签集C
label
,令迭代次数iter

1,执行步骤2.2~2.11;步骤2.2将图像T的颜色空间从RGB转换到HSV,并将其V分量记为T
V
;步骤2.3采用最大类间方差法计算T
V
的最优全局阈值,并将T
V
进行二值化,而保持图像T的饱和度分量T
S
和色调分量T
H
不变;步骤2.4将二值化后的T
V
分量与饱和度分量T
S
、色调分量T
H
从HSV颜色空间转换到RGB空间,令所得图像为T

;步骤2.5采用子网络N
feature
提取图像T

的特征图;步骤2.5.1利用卷积层Trans1对T

进行计算,得到TF
trans
;步骤2.5.2利用卷积层Inception1对TF
trans
进行计算,得到卷积特征图TF1;步骤2.5.3利用文本注意力模块Attention1对卷积特征图TF1进行计算,得到叠加注意力的卷积特征图TF
A1
;步骤2.5.3.1利用Attention1_Unit_Conv_1对TF1进行处理,得到特征图TF
1_A1_Conv1
,再分别利用Attention1_Unit_Conv_2_r1、Attention1_Unit_Conv_2_r3、Attention1_Unit_Conv_2_r5和Attention1_Unit_Conv_2_r7对TF
1_A1_Conv1
进行计算,得到特征图TF
1_A1_Conv2_r1
、TF
1_A1_Conv2_r3
、TF
1_A1_Conv2_r5
和TF
1_A1_Conv2_r7
;步骤2.5.3.2将TF
1_A1_Conv2_r1
、TF
1_A1_Conv2_r3
、TF
1_A1_Conv2_r5
和TF
1_A1_Conv2_r7
进行连接操作,得到特征图TF
1_A1_C
,再利用Attention1_Unit_Conv_3对TF
1_A1_C
做卷积操作,得到特征图TF
1_A1_DEC
,进而根据公式(5)的定义,计算得到融合注意力的特征图TF
A1

其中,“σ”表示Sigmoid函数,表示矩阵的逐元素乘法;步骤2.5.4利用卷积层Conv1对卷积特征图TF
A1
进行池化和卷积运算,得到更大尺度下的卷积特征图TF2;步骤2.5.5利用卷积层Conv2对卷积特征图TF2进行池化和卷积运算,得到更大尺度下的卷积特征图TF3;步骤2.5.6利用文本注意力模块Attention2对卷积特征图TF3进行计算,得到叠加注意力的卷积特征图TF
A2
;步骤2.5.6.1利用Attention2_Unit_Conv_1对特征图TF3进行处理,得到特征图TF
3_A2_Conv1
,再分别利用Attention2_Unit_Conv_2_r1、Attention2_Unit_Conv_2_r3、Attention2_Unit_Conv_2_r5和Attention2_Unit_Conv_2_r7对TF
3_A2_Conv1
进行卷积计算,得到特征图TF
3_A2_Conv2_r1
、TF
3_A2_Conv2_r3
、TF
3_A2_Conv2_r5
和TF
3_A2_Conv2_r7
;步骤2.5.6.2对TF
3_A2_Conv2_r1
、TF
3_A2_Conv2_r3
、TF
3_A2_Conv2_r5
、TF
3_A2_Conv2_r7
进行连接操作,得到特征图TF
3_A2_C
,再利用Attention2_Unit_Conv_3对TF
3_A2_C
做卷积操作,得到特征图TF
3_A2_DEC
,进而根据公式(6)的定义,计算得到融合注意力的特征图TF
A2
;步骤2.5.7利用卷积层Conv3对卷积特征图TF
A2
进行池化和卷积运算,得到更大尺度下的卷积特征图TF4;步骤2.5.8利用方向滤波器组层LM1对卷积特征图TF4进行多尺度方向滤波,得到多方向边缘特征图TF
LM
;步骤2.5.9利用卷积层Conv4对多方向边缘特征图TF
LM
进行池化和卷积运算,得到更大尺度下的卷积特征图TF5;步骤2.6采用子网络N
rpn
选取图像T

的候选甲骨文字区域;步骤2.6.1利用卷积层RpnConv对卷积特征图TF5进行卷积运算,得到初始区域建议结果TR
init
;步骤2.6.2利用卷积层RpnPred对初始区域建议结果TR
init
进行处理,得到区域建议的预测集合TR
pred
;步骤2.6.3利用卷积层RpnScore对初始区域建议结果TR
init
进行处理,然后经过softmax激活函数,计算得到区域建议的可能性评估结果集合TR
score
;步骤2.6.4根据TR
pred
和TR
score
,利用非极大值抑制方法获得图像T

的候选区域集合TR
ROIs
;步骤2.7对于TR
ROIs
的每个候选甲骨文字区域TR
ROI
,采用子网络N
dim
提取该区域的卷积特征图;步骤...

【专利技术属性】
技术研发人员:宋传鸣王一琦何熠辉洪飏王相海
申请(专利权)人:辽宁师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1