基于轻量级卷积神经网络的古籍汉字识别方法技术

技术编号:36347531 阅读:10 留言:0更新日期:2023-01-14 18:02
本发明专利技术公开了一种基于轻量级卷积神经网络的古籍汉字识别方法。通过集成多个专家模型,在训练过程中将预测概率分布差异项加入损失函数,降低在全体类别上的预测偏差和方差,从而提高在所有类别上的识别精度,同时引入模型轻量化技术降低了集成模型的计算开销和参数量,实现轻量级的古籍汉字长尾样本识别模型。本发明专利技术得到的模型在样本严重不均衡的古籍汉字数据集上能够有效提升在生僻字样本集上的识别精度,并与常规轻量级模型的计算复杂度和参数量相近。和参数量相近。和参数量相近。

【技术实现步骤摘要】
基于轻量级卷积神经网络的古籍汉字识别方法


[0001]本专利技术属于汉字字符识别
,具体涉及一种基于轻量级卷积神经网络的古籍汉字识别方法。

技术介绍

[0002]基于深度学习的汉字字符识别方法已成为光符识别技术(optical character recognition,OCR)的主流技术方案,但仅在类别均衡的数据集上表现良好。由于古籍文本图像中收集而来的汉字数据集中,出现频率高的常用字占据了大部分样本,生僻汉字仅能获取到少量甚至是零星数量的样本,并且生僻字的类别数量远远大于常用汉字,因此使用基于交叉熵损失函数的CNN分类模型将在分布严重不均衡的汉字样本集上面临生僻字识别精度不足的挑战。
[0003]虽然现有的长尾识别方法能够缓解上述问题,但普遍存在计算复杂度和参数量较高的问题,需要对现有模型进行轻量化处理,以符合存储资源受限设备的部署环境。

技术实现思路

[0004]本专利技术针对现有技术的不足,提供一种基于轻量级卷积神经网络的古籍汉字识别方法,以解决样本不均衡汉字数据集的识别精度问题和集成神经网络参数量高的问题。
[0005]为了达到上述目的,一种基于轻量级卷积神经网络的古籍汉字识别方法,包括以下步骤:
[0006]步骤1,由特征提取网络和多个专家模型构成集成模型,并通过分布差异损失和分类损失共同训练集成模型;
[0007]步骤2,在步骤1训练完成后的集成模型中加入专家模型分配模块,动态调整专家模型的开启数量以降低模型的计算开销;
[0008]步骤3,利用步骤2训练完成的集成模型输出伪标签样本集,通过类别重平衡采样更新有标签样本集;
[0009]步骤4,通过无标签样本和步骤3更新后的有标签样本共同训练集成模型;
[0010]步骤5,重复步骤3和4,实现对集成模型的迭代式训练;
[0011]步骤6,使用步骤5训练好的集成模型进行古籍汉字的识别。
[0012]而且,所述步骤1中集成模型包含一个共享的主干网络f
θ
和n个独立的专家模型ψ
θ
=[ψ1,ψ2,...,ψ
n
],共享主干网络f
θ
为特征提取网络,每个专家模型的输入都来自共享主干网络对样例x的输出f
θ
(x)。在集成模型第一阶段的训练过程中,使用每个专家模型独立的分类损失和不同专家模型之间的分布差异损失L
D
对f
θ
和ψ
θ
同时进行优化,从而将分类损失最小化以得到更高的集成模型精度,将分布差异损失L
D
最大化以得到多样化的专家模型,降低专家模型的预测偏差从而提高尾部类精度。
[0013]假设γ
min
=min{γ1,...,γ
k
}表示每个类别与分类边界的最小边界距离,且类别j有n
j
个样本,即类别1和类别2分别有n1和n2个样本时,在二分类模型中存在实数δ∈(

γ2,
γ1),对于γ1和γ2满足以下不等式:
[0014][0015]式中,Υ1表示类别1和分类边界的最小边界距离,Υ2表示类别2和分类边界的最小边界距离,式(1)在满足以下条件时成立,其中C为未确定的超参数:
[0016][0017]将上述二分类情况扩展到多分类任务时,类别j与边界的最佳距离Υ
j
为:
[0018][0019]式中,C为未确定的超参数,n
j
表示类别j的样本数。
[0020]分类损失函数计算方式如下:
[0021][0022]式中,(x,y)表示样本x及其对应的标签y,f为分类模型,z
j
表示分类模型f对于类别j的样本x的输出f(x)
j
,Υ
j
为边界距离,z
y
表示分类模型f对于类别y的样本x的输出f(x)
y

[0023]为了使训练好的集成模型能有效区分头部类别的类内变化,并在样例缺乏的尾部类别上保持足够的鲁棒性,对专家模型的输出ψ
θ
(f
θ
(x))进行软标签化操作,根据每个类别的样本数调节最终预测分布中置信度的大小,使集成模型能同时处理好头部和尾部类别。另外,引入知识蒸馏中温度调节的思想,在第一阶段训练过程中加入温度调节,使集成模型在训练初期学习到相对稳定的权值;温度T随着类别的样本数量线性增长,第k个类别对应的温度T
k
的计算公式为:
[0024]T
k
=α(β
k
+1

max(β
k
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0025]式中,α为常数值,通常取1;β
k
由所有类别的样本数执行归一化后得到,具体计算为:
[0026][0027]式中,r为权值项,表示归一化的比重;n
k
为第k个类别的样本数;c为类别总数;n
s
为第s个类别的样本数。
[0028]当β
k
=1时,T
k
=α,保证了在平衡数据集上每个类别的温度是相同的;对专家模型的预测分布进行温度调节后,第i个专家模型的输出p
(i)
(x,y)可表示为:
[0029][0030]式中,Ψ
θi
(f
θ
(x))
c
为温度调节前的第i个专家模型第c个类别的输出,T
c
为第c个类别对应的温度,softmax函数将输出的值范围控制在[0,1]。
[0031]使用KL散度(KL

divergence)损失作为分布差异损失计算方式如下:
[0032][0033]式中,p
(i)
(x,y)为第i个专家模型的输出,D
KL
()为KL散度,n为类别的数目。
[0034]对于n个专家模型和一个共享的主干网络构成的集成模型,通过累加每个专家模型独立的分类损失L
C
和不同专家模型预测分布之间的分布差异损失得到集成模型第一阶段训练过程总体的损失函数,计算公式如下:
[0035][0036]式中,λ为权重系数,令λ<0从而使KL散度损失最大化。
[0037]而且,所述步骤2中加入专家模型分配模块完成集成模型训练的第二阶段,专家模型分配模块由多个路由开关构成,根据主干网络和专家模型的输出特征动态调节专家模型的开启数量,减少头部类样本推理过程中专家模型的开启数量,同时保证尽可能增加尾部类样本推理过程中专家模型的开启数量,具体说来将路由模块的开启或关闭状态作为标签供路由开关学习,主干网络和专家模型的参数被冻结,仅负责特征输出,不再参与训练,通过训练专家模型分配模块,实现根据主干网络和上一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于,包括以下步骤:步骤1,由特征提取网络和多个专家模型构成集成模型,并通过分布差异损失和分类损失共同训练集成模型;步骤2,在步骤1训练完成后的集成模型中加入专家模型分配模块,动态调整专家模型的开启数量以降低模型的计算开销;步骤3,利用步骤2训练完成的集成模型输出伪标签样本集,通过类别重平衡采样更新有标签样本集;步骤4,通过无标签样本和步骤3更新后的有标签样本共同训练集成模型;步骤5,重复步骤3和4,实现对集成模型的迭代式训练;步骤6,使用步骤5训练好的集成模型进行古籍汉字的识别。2.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤1中集成模型ENS

CNet包含一个共享的主干网络f
θ
和n个独立的专家模型ψ
θ
=[ψ1,ψ2,...,ψ
n
],共享主干网络f
θ
为特征提取网络,每个专家模型的输入都来自共享主干网络对样例x的输出f
θ
(x);在集成模型第一阶段的训练过程中,使用每个专家模型独立的分类损失和不同专家模型之间的分布差异损失L
D
对f
θ
和ψ
θ
同时进行优化,从而将分类损失最小化以得到更高的集成模型精度,将分布差异损失L
D
最大化以得到多样化的专家模型,降低专家模型的预测偏差从而提高尾部类精度。3.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤1中假设Υ
min
=min{Υ1,...,Υ
k
}表示每个类别与分类边界的最小边界距离,且类别j有n
j
个样本,即类别1和类别2分别有n1和n2个样本时,在二分类模型中存在实数δ∈(

Υ2,Υ1),对于Υ1和Υ2满足以下不等式:式中,Υ1表示类别1和分类边界的最小边界距离,Υ2表示类别2和分类边界的最小边界距离,式(1)在满足以下条件时成立,其中C为未确定的超参数:将上述二分类情况扩展到多分类任务时,类别j与边界的最佳距离Υ
j
为:式中,C为未确定的超参数,n
j
表示类别j的样本数;分类损失函数计算方式如下:式中,(x,y)表示样本x及其对应的标签y,f为分类模型,z
j
表示分类模型f对于类别j的样本x的输出f(x)
j
,Υ
j
为边界距离,z
y
表示分类模型f对于类别y的样本x的输出f(x)
y
。4.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在
于:步骤1中为了使训练好的集成模型能有效区分头部类别的类内变化,并在样例缺乏的尾部类别上保持足够的鲁棒性,对专家模型的输出ψ
θ
(f
θ
(x))进行软标签化操作,根据每个类别的样本数调节最终预测分布中置信度的大小,使集成模型能同时处理好头部和尾部类别;另外,引入知识蒸馏中温度调节的思想,在第一阶段训练过程中加入温度调节,使集成模型在训练初期学习到相对稳定的权值;温度T随着类别的样本数量线性增长,第k个类别对应的温度T
k
的计算公式为:T
k
=α(β
k
+1

max(β
k
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)式中,α为常数值,通常取1;β
k
由所有类别的样本数执行归一化后得到,具体计算为:式中,r为权值项,表示归一化的比重;n
k
为第k个类别的样本数;c为类别总数;n
s
为第s个类别的样本数;当β
k
=1时,T
k
=α,保证了在平衡数据集上每个类别的温度是相同的;对专家模型的预测分布进行温度调节后,第i个专家模型的输出p
(i)
(x,y)表示为:式中,Ψ
θi
(f
θ
(x))
c
为温度调节前的第i个专家模型第c个类别的输出,T
c
为第c个类别对应的温度,softmax函数将输出的值范围控制在[0,1];使用KL散度(KL

divergence)损失作为分布差异损失计算方式如下:式中,p
(i)
(x,y)为第i个专家模型的输出,D
KL
()为KL散度,n为类别的数目;对于n个专家模型和一个共享的主干网络构成的集成模型,通过累加每个专家模型独立的分类损失L
C
和不同专家模型预测分布之间的分布差异损失得到集成模型第一阶段训练过程总体的损失函数,计算公式如下:式中,λ为权重系数,令λ<0从而使KL散度损失最大化。5.如权利要求1所述的一种基于轻量级卷积神经网络的古籍汉字识别方法,其特征在于:步骤2中加入专家模型分配模块完成集成模型训练的第二阶段,专家模型分配模块由多个路由开关构成,根据主干网络和专家模型的输出特征动态调节专家模型的开启数量,减少头部类样本推理过程中专家模型的开启数量,同时保证尽可能增加尾部类样本推理过程中专家模型的...

【专利技术属性】
技术研发人员:周俊伟梁宇成向剑文夏喆赵冬冬熊盛武杨焱超
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1