【技术实现步骤摘要】
LM滤波器组引导纹理特征自主学习的甲骨文字检测方法
[0001]本专利技术涉及数字图像处理和古文字信息处理的交叉领域,尤其是一种可有效抵抗龟甲和兽骨所存在的点状噪声、钻凿坑洞、灼烧裂痕的干扰,能适应契刻过程所引起的文字行列分布规律不明显、线素方向复杂多变的特点,准确性高、鲁棒性好、角度自适应能力强的LM滤波器组引导纹理特征自主学习的甲骨文字检测方法。
技术介绍
[0002]作为计算甲骨学的重要基础研究领域之一,甲骨文字检测的根本目的是借助计算机视觉技术,在甲骨拓片图像上自动定位甲骨卜辞文字的区域位置,进而为刻辞文本识别及语义释读等环节提供字形图像或字形图像集合。它对于保证后续的文字分割和字形复原质量、提高字形特征提取和自动识别精度具有基础且重要的意义,亦是计算机辅助甲骨文字形研究、碎片缀合、文意释读等研究工作的基础任务。然而,欲在干扰严重、字迹与龟甲边缘相互混叠的复杂背景中实现甲骨卜辞文字的自动准确检测,至今仍是一项非常有挑战性的计算机视觉处理任务。
[0003]依据待检测的文字对象所处的年代,现有的文字检测技术包括面向现代文字的检测方法和面向古代文字的检测方法两大类。
[0004]首先,面向现代文字的检测技术可进一步被划分为四类:基于传统方法的文字检测、基于回归的深度学习文字检测、基于分割的深度学习文字检测、基于组件连接的深度学习文字检测。
[0005]⑴
在基于传统方法的文字检测方面,Epshtein等人在边缘检测结果的基础上,利用局部梯度选取成对边缘两端点并计算其宽度,从而区分笔 ...
【技术保护点】
【技术特征摘要】
1.一种LM滤波器组引导纹理特征自主学习的甲骨文字检测方法,其特征在于按照如下步骤进行:步骤1.建立并初始化用于甲骨刻辞文字检测的深度卷积神经网络N
obc
,包含1个用于特征提取的子网络N
feature
、1个用于甲骨文字区域建议的子网络N
rpn
、1个用于甲骨文字区域特征降维的子网络N
dim
和1个用于区域分类的子网络N
cls
;步骤1.1建立并初始化子网络N
feature
,含有2组以迁移方式完成训练的卷积层、4组以标准方式完成训练的卷积层、2组文本注意力模块、1组方向滤波器组层,分别为Trans1、Conv4、Inception1、Conv1、Conv2、Conv3、Attention1、Attention2、LM1,各层的前后布局顺序为Trans1、Inception1、Attention1、Conv1、Conv2、Attention2、Conv3、LM1、Conv4;所述Trans1包含3组卷积操作,分别为Trans
A
、Trans
B
、Trans
C
,其中,Trans
A
包含一层大小为3
×
3的、以Xavier方法进行初始化的16个卷积核;Trans
B
包含一层大小为3
×
3的、以Xavier方法进行初始化的16个卷积核;Trans
C
包含一层大小为3
×
3的、以Xavier方法进行初始化的16个卷积核;所述Inception1包含3组卷积操作,分别为Inception
A
、Inception
B
、Inception
C
,其中,Inception
A
包含一层大小为1
×
1的、以Xavier方法进行初始化的16个卷积核,记为Inception
A_1
,一层大小为1
×
1的、以Xavier方法进行初始化的64个卷积核,记为Inception
A_2
;Inception
B
包含一层大小为1
×
1的、以Xavier方法进行初始化的16个卷积核,记为Inception
B_1
,一层大小为3
×
3的、以Xavier方法进行初始化的32个卷积核,记为Inception
B_2
,一层大小为1
×
1的、以Xavier方法进行初始化的64个卷积核,记为Inception
B_3
;Inception
C
包含一层大小为1
×
1的、以Xavier方法进行初始化的16个卷积核,记为Inception
C_1
,一层大小为3
×
3的、以Xavier方法进行初始化的32个卷积核,记为Inception
C_2
,一层大小为3
×
3的、以Xavier方法进行初始化的48个卷积核,记为Inception
C_3
,一层大小为1
×
1的、以Xavier方法进行初始化的64个卷积核,记为Inception
C_4
;Inception
A
、Inception
B
、Inception
C
的输出分别为Output
inception_A
、Output
inception_B
、Output
inception_C
,并根据公式(1)的定义计算Inception1层的输出Output
inception
;Output
inception
←
(Output
inception_A
+Output
inception_B
+Output
inception_C
)
·
C
inception
ꢀꢀ
(1)其中,“·”表示内积运算,C
inception
表示一个预设的常量;所述Attention1模块包含三组卷积操作,分别记为Attention1_Unit_Conv_1、Attention1_Unit_Conv_2、Attention1_Unit_Conv_3,其中,Attention1_Unit_Conv_1包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention1_Unit_Conv_1_r1;Attention1_Unit_Conv_2包含一层大小为3
×
3、以Xavier方法进行初始化的1个卷积核,记为Attention1_Unit_Conv_2_r1,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为3的1个空洞卷积核,记为Attention1_Unit_Conv_2_r3,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为5的1个空洞卷积核,记为Attention1_Unit_Conv_2_r5,以及一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为7的1个空洞卷积核,记为Attention1_Unit_Conv_2_r7;Attention1_Unit_Conv_3包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention1_Unit_Conv_3_r1;所述Attention2模块包含三组卷积操作,分别记为Attention2_Unit_Conv_1、
Attention2_Unit_Conv_2、Attention2_Unit_Conv_3,其中,Attention2_Unit_Conv_1包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention2_Unit_Conv_1_r1;Attention2_Unit_Conv_2包含一层大小为3
×
3、以Xavier方法进行初始化的1个卷积核,记为Attention2_Unit_Conv_2_r1,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为3的1个空洞卷积核,记为Attention2_Unit_Conv_2_r3,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为5的1个空洞卷积核,记为Attention2_Unit_Conv_2_r5,以及一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为7的1个空洞卷积核,记为Attention2_Unit_Conv_2_r7;Attention2_Unit_Conv_3包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention2_Unit_Conv_3_r1;所述Conv1包含1层池化操作和2层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有128个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述Conv2包含1层池化操作和3层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有256个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述Conv3包含1层池化操作和3层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有512个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述Conv4包含1层池化操作和3层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有512个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述LM1包含1层Leung
‑
Malik方向滤波操作,含有由公式(2)定义的6方向、3尺度的18个高斯1阶导数组成的边缘滤波器,由公式(3)定义的6方向、3尺度的18个高斯2阶导数组成的柱状滤波器,8个由公式(4)定义的高斯—拉普拉斯滤波器以及4个高斯滤波器;G
′
=G
x
cosθ+G
y
sinθ
ꢀꢀ
(2)G
″
=G
xx
cos2θ+G
yy
sin2θ
‑
2G
xy
cosθsinθ
ꢀꢀ
(3)其中,G表示高斯核函数,G
x
表示G沿着水平方向的一阶偏导数,G
y
表示G沿着竖直方向的一阶偏导数,G
xx
表示G沿着水平方向的二阶偏导数,G
yy
表示G沿着竖直方向的二阶偏导数,G
xy
表示G的二阶混合偏导数,θ∈{0
°
,30
°
,60
°
,90
°
,120
°
,150
°
}表示边缘滤波器和柱状滤波器的角度,每个边缘滤波器和柱状滤波器各包含3个滤波尺度,分别为σ1、σ2、σ3,高斯—拉普拉斯滤波器包含8个滤波尺度,分别为高斯滤波器包含4个滤波尺度,分别为步骤1.2建立并初始化子网络N
rpn
,含有3组卷积层,分别为RpnConv、RpnPred和RpnScore;所述RpnConv包含1层卷积操作,含有512个大小为3
×
3的卷积核,每个卷积核以1个像素为步长、以SAME填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;
所述RpnPred包含1层卷积操作,含有36个大小为1
×
1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;所述RpnScore包含1层卷积操作,含有18个大小为1
×
1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;步骤1.3建立并初始化子网络N
dim
,含有1组剪裁池化层和2组全连接层,分别为CropPool、Fc1和Fc2;所述CropPool包含1层缩放操作和1层池化操作,其中,缩放操作用于将候选区域的尺寸变换为14
×
14像素,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算;所述Fc1有4096个输出单元,并且采用ReLU激活函数,以Xavier方法进行权值初始化;所述Fc2有4096个输出单元,并且采用ReLU激活函数,以Xavier方法进行权值初始化;步骤1.4建立并初始化子网络N
cls
,含有2组全连接层,分别为Fc3和Fc4;所述Fc3有4096个输入单元和8个输出单元,并采用均值为0、标准差为0.001的高斯分布进行初始化;所述Fc4有4096个输入单元和2个输出单元,并采用均值为0、标准差为0.01的高斯分布进行初始化;步骤2.输入甲骨刻辞图像训练集和人工已标注的每幅训练图像的甲骨文字区域坐标集、甲骨文字区域标签集,对深度卷积神经网络N
obc
进行初始训练;步骤2.1对于训练集中的每幅图像T及其人工已标注的甲骨文字区域坐标集C
ref
和甲骨文字区域标签集C
label
,令迭代次数iter
←
1,执行步骤2.2~2.11;步骤2.2将图像T的颜色空间从RGB转换到HSV,并将其V分量记为T
V
;步骤2.3采用最大类间方差法计算T
V
的最优全局阈值,并将T
V
进行二值化,而保持图像T的饱和度分量T
S
和色调分量T
H
不变;步骤2.4将二值化后的T
V
分量与饱和度分量T
S
、色调分量T
H
从HSV颜色空间转换到RGB空间,令所得图像为T
′
;步骤2.5采用子网络N
feature
提取图像T
′
的特征图;步骤2.5.1利用卷积层Trans1对T
′
进行计算,得到TF
trans
;步骤2.5.2利用卷积层Inception1对TF
trans
进行计算,得到卷积特征图TF1;步骤2.5.3利用文本注意力模块Attention1对卷积特征图TF1进行计算,得到叠加注意力的卷积特征图TF
A1
;步骤2.5.3.1利用Attention1_Unit_Conv_1对TF1进行处理,得到特征图TF
1_A1_Conv1
,再分别利用Attention1_Unit_Conv_2_r1、Attention1_Unit_Conv_2_r3、Attention1_Unit_Conv_2_r5和Attention1_Unit_Conv_2_r7对TF
1_A1_Conv1
进行计算,得到特征图TF
1_A1_Conv2_r1
、TF
1_A1_Conv2_r3
、TF
1_A1_Conv2_r5
和TF
1_A1_Conv2_r7
;步骤2.5.3.2将TF
1_A1_Conv2_r1
、TF
1_A1_Conv2_r3
、TF
1_A1_Conv2_r5
和TF
1_A1_Conv2_r7
进行连接操作,得到特征图TF
1_A1_C
,再利用Attention1_Unit_Conv_3对TF
1_A1_C
做卷积操作,得到特征图TF
1_A1_DEC
,进而根据公式(5)的定义,计算得到融合注意力的特征图TF
A1
;
其中,“σ”表示Sigmoid函数,表示矩阵的逐元素乘法;步骤2.5.4利用卷积层Conv1对卷积特征图TF
A1
进行池化和卷积运算,得到更大尺度下的卷积特征图TF2;步骤2.5.5利用卷积层Conv2对卷积特征图TF2进行池化和卷积运算,得到更大尺度下的卷积特征图TF3;步骤2.5.6利用文本注意力模块Attention2对卷积特征图TF3进行计算,得到叠加注意力的卷积特征图TF
A2
;步骤2.5.6.1利用Attention2_Unit_Conv_1对特征图TF3进行处理,得到特征图TF
3_A2_Conv1
,再分别利用Attention2_Unit_Conv_2_r1、Attention2_Unit_Conv_2_r3、Attention2_Unit_Conv_2_r5和Attention2_Unit_Conv_2_r7对TF
3_A2_Conv1
进行卷积计算,得到特征图TF
3_A2_Conv2_r1
、TF
3_A2_Conv2_r3
、TF
3_A2_Conv2_r5
和TF
3_A2_Conv2_r7
;步骤2.5.6.2对TF
3_A2_Conv2_r1
、TF
3_A2_Conv2_r3
、TF
3_A2_Conv2_r5
、TF
3_A2_Conv2_r7
进行连接操作,得到特征图TF
3_A2_C
,再利用Attention2_Unit_Conv_3对TF
3_A2_C
做卷积操作,得到特征图TF
3_A2_DEC
,进而根据公式(6)的定义,计算得到融合注意力的特征图TF
A2
;步骤2.5.7利用卷积层Conv3对卷积特征图TF
A2
进行池化和卷积运算,得到更大尺度下的卷积特征图TF4;步骤2.5.8利用方向滤波器组层LM1对卷积特征图TF4进行多尺度方向滤波,得到多方向边缘特征图TF
LM
;步骤2.5.9利用卷积层Conv4对多方向边缘特征图TF
LM
进行池化和卷积运算,得到更大尺度下的卷积特征图TF5;步骤2.6采用子网络N
rpn
选取图像T
′
的候选甲骨文字区域;步骤2.6.1利用卷积层RpnConv对卷积特征图TF5进行卷积运算,得到初始区域建议结果TR
init
;步骤2.6.2利用卷积层RpnPred对初始区域建议结果TR
init
进行处理,得到区域建议的预测集合TR
pred
;步骤2.6.3利用卷积层RpnScore对初始区域建议结果TR
init
进行处理,然后经过softmax激活函数,计算得到区域建议的可能性评估结果集合TR
score
;步骤2.6.4根据TR
pred
和TR
score
,利用非极大值抑制方法获得图像T
′
的候选区域集合TR
ROIs
;步骤2.7对于TR
ROIs
的每个候选甲骨文字区域TR
ROI
,采用子网络N
dim
提取该区域的卷积特征图;步骤...
【专利技术属性】
技术研发人员:宋传鸣,王一琦,何熠辉,洪飏,王相海,
申请(专利权)人:辽宁师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。