多尺度稀疏边缘特征自主融合学习的甲骨刻辞文字检测方法技术

技术编号:28736623 阅读:31 留言:0更新日期:2021-06-06 11:44
本发明专利技术公开一种多尺度稀疏边缘特征自主融合学习的甲骨刻辞文字检测方法,首先,采用最大类间方差法对HSV图像的V分量进行二值化,并利用多条件连通区域填充算法得到图像I的粗去噪结果;其次,通过引进1组非下采样剪切波变换层和1组Inception结构的子网络,对图像I的多尺度稀疏边缘特征进行自主学习及自适应融合;然后,获得叠加了注意力的卷积特征;最后,利用区域建议子网络选取感兴趣区域并计算各个感兴趣区域的评分,再通过特征降维子网络和区域分类子网络确定甲骨文字的区域,经过非极大值抑制算法去除重叠的候选框后,生成带有框选结果的结果图像。选结果的结果图像。选结果的结果图像。

【技术实现步骤摘要】
多尺度稀疏边缘特征自主融合学习的甲骨刻辞文字检测方法


[0001]本专利技术涉及数字图像处理和古文字信息处理的交叉领域,尤其是一种可有 效抵抗龟甲和兽骨上的点状噪声、片状斑纹和固有纹理的干扰,能适应书体风 格差异所引起的文字尺度变化,准确性高、鲁棒性好、具备尺度自适应能力的 多尺度稀疏边缘特征自主融合学习的甲骨刻辞文字检测方法。

技术介绍

[0002]随着计算机图像识别能力的提升,以计算机视觉技术为基础,结合甲骨文 的专业知识进行甲骨文字识别已成为可能。然而,经过三千余年的土壤压力和 腐蚀,又经发掘、运输、辗转流传,很多甲骨均有不同程度的损坏,其文字多 已模糊不清,而且龟甲和兽骨的质地亦不光滑,本身又存在齿缝、兆纹、盾纹、 刻痕等纹理,导致甲骨文字往往被大量的固有边缘和纹理所干扰。同时,甲骨 文的文例和版面分布又具有“沿中缝而刻辞向外,在右右行,在左左行,沿首 尾之两边而刻辞者,向内,在右左行,在左右行”的独特规律,其文字的分布 与边缘的方向存在一定关系,且行不明显,明显有别于现代书写规范。
[0003]针对甲骨文字的区域检测,史小松等本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多尺度稀疏边缘特征自主融合学习的甲骨刻辞文字检测方法,其特征在于按照如下步骤进行:步骤1.建立并初始化用于甲骨刻辞文字检测的深度卷积神经网络N
obc
,包含1个用于特征提取的子网络N
feature
、1个用于甲骨文字区域建议的子网络N
rpn
、1个用于甲骨文字区域特征降维的子网络N
dim
和1个用于区域分类的子网络N
cls
;步骤1.1建立并初始化子网络N
feature
,含有1组变换层、5组卷积层、2组文本注意力模块,分别为Shear1、Inception1、Conv1、Conv2、Conv3、Conv4、Attention1和Attention2;所述Shear1包含1层非下采样Shearlet变换,其变换尺度为2,每个尺度的方向子带数目为[1,1],变换后得到16个方向子带的变换系数集合C
shearlet
,再令C
shearlet

C
shearlet
×
255;所述Inception1包含3组卷积操作,分别为Inception
A
、Inception
B
、Inception
C
,其中,Inception
A
包含一层大小为1
×
1的、以Xavier方法进行初始化的16个卷积核,记为Inception
A_1
,一层大小为1
×
1的、以Xavier方法进行初始化的64个卷积核,记为Inception
A_2
;Inception
B
包含一层大小为1
×
1的、以Xavier方法进行初始化的16个卷积核,记为Inception
B_1
,一层大小为3
×
3的、以Xavier方法进行初始化的32个卷积核,记为Inception
B_2
,一层大小为1
×
1的、以Xavier方法进行初始化的64个卷积核,记为Inception
B_3
;Inception
C
包含一层大小为1
×
1的、以Xavier方法进行初始化的16个卷积核,记为Inception
C_1
,一层大小为3
×
3的、以Xavier方法进行初始化的32个卷积核,记为Inception
C_2
,一层大小为3
×
3的、以Xavier方法进行初始化的48个卷积核,记为Inception
C_3
,一层大小为1
×
1的、以Xavier方法进行初始化的64个卷积核,记为Inception
C_4
;Inception
A
、Inception
B
、Inception
C
的输出分别为Output
inception_A
、Output
inception_B
、Output
inception_C
,并根据公式(1)的定义计算Inception1层的输出Output
inception
;Output
inception

(Output
inception_A
+Output
inception_B
+Output
inception_C
)
·
C
inception
ꢀꢀꢀ
(1)其中,“·”表示内积运算,C
inception
表示一个预设的常量;所述Attention1模块包含三组卷积操作,分别记为Attention1_Unit_Conv_1、Attention1_Unit_Conv_2、Attention1_Unit_Conv_3,其中,Attention1_Unit_Conv_1包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention1_Unit_Conv_1_r1;Attention1_Unit_Conv_2包含一层大小为3
×
3、以Xavier方法进行初始化的1个卷积核,记为Attention1_Unit_Conv_2_r1,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为3的1个空洞卷积核,记为Attention1_Unit_Conv_2_r3,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为5的1个空洞卷积核,记为Attention1_Unit_Conv_2_r5,以及一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为7的1个空洞卷积核,记为Attention1_Unit_Conv_2_r7;Attention1_Unit_Conv_3包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention1_Unit_Conv_3_r1;所述Attention2模块包含三组卷积操作,分别记为Attention2_Unit_Conv_1、Attention2_Unit_Conv_2、Attention2_Unit_Conv_3,其中,Attention2_Unit_Conv_1包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention2_Unit_Conv_1_r1;Attention2_Unit_Conv_2包含一层大小为3
×
3、以Xavier方法进行初始化的1个卷积
核,记为Attention2_Unit_Conv_2_r1,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为3的1个空洞卷积核,记为Attention2_Unit_Conv_2_r3,一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为5的1个空洞卷积核,记为Attention2_Unit_Conv_2_r5,以及一层大小为3
×
3、以Xavier方法进行初始化、膨胀率为7的1个空洞卷积核,记为Attention2_Unit_Conv_2_r7;Attention2_Unit_Conv_3包含一层大小为1
×
1、以Xavier方法进行初始化的1个卷积核,记为Attention2_Unit_Conv_3_r1;所述Conv1包含1层池化操作和2层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有128个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述Conv2包含1层池化操作和3层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有256个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述Conv3包含1层池化操作和3层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有512个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;所述Conv4包含1层池化操作和3层卷积操作,其中,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算,每个卷积层含有512个大小为3
×
3的、以Xavier方法进行初始化的卷积核,每个卷积核以1个像素为步长进行卷积运算;步骤1.2建立并初始化子网络N
rpn
,含有3组卷积层,分别为RpnConv、RpnPred和RpnScore;所述RpnConv包含1层卷积操作,含有512个大小为3
×
3的卷积核,每个卷积核以1个像素为步长、以SAME填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;所述RpnPred包含1层卷积操作,含有36个大小为1
×
1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;所述RpnScore包含1层卷积操作,含有18个大小为1
×
1的卷积核,每个卷积核以1个像素为步长、以VALID填充模式进行卷积运算,并采用均值为0、标准差为0.01的高斯分布进行初始化;步骤1.3建立并初始化子网络N
dim
,含有1组剪裁池化层和2组全连接层,分别为CropPool、Fc1和Fc2;所述CropPool包含1层缩放操作和1层池化操作,其中,缩放操作用于将候选区域的尺寸变换为14
×
14像素,池化层以大小为2
×
2的池化核、以SAME填充模式进行最大池化运算;所述Fc1有4096个输出单元,并且采用ReLU激活函数,以Xavier方法进行权值初始化;所述Fc2有4096个输出单元,并且采用ReLU激活函数,以Xavier方法进行权值初始化;步骤1.4建立并初始化子网络N
cls
,含有2组全连接层,分别为Fc3和Fc4;所述Fc3有4096个输入单元和8个输出单元,并采用均值为0、标准差为0.001的高斯分布进行初始化;所述Fc4有4096个输入单元和2个输出单元,并采用均值为0、标准差为0.01的高斯分布
进行初始化;步骤2.输入甲骨刻辞图像训练集和人工已标注的每幅训练图像的甲骨文字区域坐标集、甲骨文字区域标签集,对深度卷积神经网络N
obc
进行训练;步骤2.1对于训练集中的每幅图像T及其人工已标注的甲骨文字区域坐标集C
ref
和甲骨文字区域标签集C
label
,令迭代次数iter

1,执行步骤2.2~2.11;步骤2.2将图像T的颜色空间从RGB转换到HSV,并将其V分量记为T
V
;步骤2.3采用最大类间方差法计算T
V
的最优全局阈值,并将T
V
进行二值化,而保持图像T的饱和度分量T
S
和色调分量T
H
不变;步骤2.4将二值化后的T
V
分量与饱和度分量T
S
、色调分量T
H
从HSV颜色空间转换到RGB空间,令所得图像为T

;步骤2.5采用子网络N
feature
提取图像T

的特征图;步骤2.5.1利用变换层Shear1对T

进行非下采样剪切波变换,得到C
shearlet
;步骤2.5.2利用卷积层Inception1对C
shearlet
进行计算,得到卷积特征图TF1;步骤2.5.3利用文本注意力模块Attention1对卷积特征图TF1进行计算,得到叠加注意力的卷积特征图TF
A1
;步骤2.5.3.1利用Attention1_Unit_Conv_1对TF1进行处理,得到特征图TF
1_A1_Conv1
,再分别利用Attention1_Unit_Conv_2_r1、Attention1_Unit_Conv_2_r3、Attention1_Unit_Conv_2_r5和Attention1_Unit_Conv_2_r7对TF
1_A1_Conv1
进行计算,得到特征图TF
1_A1_Conv2_r1
、TF
1_A1_Conv2_r3
、TF
1_A1_Conv2_r5
和TF
1_A1_Conv2_r7
;步骤2.5.3.2将TF
1_A1_Conv2_r1
、TF
1_A1_Conv2_r3
、TF
1_A1_Conv2_r5
和TF
1_A1_Conv2_r7
进行连接操作,得到特征图TF
1_A1_C
,再利用Attention1_Unit_Conv_3对TF
1_A1_C
做卷积操作,得到特征图TF
1_A1_DEC
,进而根据公式(2)的定义,计算得到融合注意力的特征图TF
A1
;其中,“σ”表示Sigmoid函数,表示矩阵的逐元素乘法;步骤2.5.4利用卷积层Conv1对卷积特征图TF
A1
进行池化和卷积运算,得到更大尺度下的卷积特征图TF2;步骤2.5.5利用卷积层Conv2对卷积特征图TF2进行池化和卷积运算,得到更大尺度下的卷积特征图TF3;步骤2.5.6利用卷积层Conv3对卷积特征图TF3进行池化和卷积运算,得到更大尺度下的卷积特征图TF4;步骤2.5.7利用文本注意力模块Attention2对卷积特征图TF4进行计算,得到叠加注意力的卷积特征图TF
A2
;步骤2.5.7.1利用Attention2_Unit_Conv_1对特征图TF4进行处理,得到特征图TF
4_A2_Conv1
,再分别利用Attention2_Unit_Conv_2_r1、Attention2_Unit_Conv_2_r3、Attention2_Unit_Conv_2_r5和Attention2_Unit_Conv_2_r7对TF
4_A2_Conv1
进行卷积计算,得到特征图TF
4_A2_Conv2_r1
、TF
4_A2_Conv2_r3
、TF
4_A2_Conv2_r5
和TF
4_A2_Conv2_r7
;步骤2.5.7.2对TF
4_A2_Conv2_r1
、TF
4_A2_Conv2_r3
、TF
4_A2_Conv2_r5
、TF
4_A2_Conv2_r7
进行连接操作,得到特征图TF
4_A2_C
,再利用Attention2_Unit_Conv_3对TF
4_A2_C
做卷积操作,得到特征图
TF
4_A2_DEC
,进而根据公式(3)的定义,计算得到融合注意力的特征图TF
A2
;步骤2.5.8利用卷积层Conv4对特征图TF
A2
进行池化和卷积运算,得到更大尺度下的卷积特征图TF5;步骤2.6采用子网络N
rpn
选取图像T

的候选甲骨文字区域;步骤2.6.1利用卷积层RpnCo...

【专利技术属性】
技术研发人员:宋传鸣何熠辉王一琦洪飏王相海
申请(专利权)人:辽宁师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1