一种基于SwinTransformer的小篆识别方法技术

技术编号:38005625 阅读:4 留言:0更新日期:2023-06-30 10:21
本发明专利技术公开了一种基于SwinTransformer的小篆识别方法。本发明专利技术选用小篆图片及其对应的繁体字图片作为模型的输入,经过预处理操作后的小篆图片首先被送入到基于SwinTransformer搭建的编码器E中,编码得到图片全局特征;随后网络采用一种并行三分支结构:繁体图片生成分支、小篆图片生成分支、小篆预测分支。本发明专利技术使用Swin

【技术实现步骤摘要】
一种基于Swin Transformer的小篆识别方法


[0001]本专利技术涉及图文识别与深度学习
,具体涉及一种基于Swin Transformer的小篆识别方法。

技术介绍

[0002]汉语作为世界上最古老的文字之一,已有六千多年的历史。汉字作为中华文化的载体,我们依靠这些古汉字来研究中国古代文学,研究文化的迁移和传承。中国古代汉字的研究对于中国古代的历史探索具有重大意义,因此一直以来作为十分重要的研究方向。在古汉字不断演变的过程中,小篆作为秦始皇统一度量衡后的文字产物,象形意味削弱,文字更加符号化,减少了书写和认读方面的混淆和困难,在现代汉语的发展中发挥重要作用。现如今依然经常在书画,印章,公司的商标以及海报等场景中发现小篆的身影,但由于小篆与我们如今常用的简体字在字形上具有较大差异,大多数没有掌握古汉字专业知识的人往往并不具备小篆识别的能力,因此我们需要一种能够识别小篆的方法。
[0003]目前针对小篆的图文识别技术较少,且识别准确率较低,主要原因在于:1.小篆字体象形以及符号信息丰富且风格多样,不同朝代的不同书法家对于小篆有不同的书写风格,即使同一个字也可能具有较大的形体差异,导致识别准确率不够高,现有小篆识别技术大多在提取图片特征信息后,直接对特征向量进行分类处理得到识别结果,这浪费了小篆字体中包含的丰富结构信息,小篆文字识别难度较大;2.现有小篆以及其他古汉字识别技术大多基于卷积神经网络(CNN)或者循环神经网络(RNN)搭建,CNN中的池化操作会丢失图片中的部分有价值信息,忽略了局部与整体之间的关联性,RNN随着网络层数增加,在长序列场景处理时会出现梯度消失或梯度爆炸的弊端,过去的网络结构对于图片的信息提取能力有限,在完成小篆识别这样难度很大的任务时准确率较低。
[0004]Transformer结构不需要堆叠就可以获取全局信息,不像CNN受感受野的限制,且突破了RNN模型不能并行计算的限制,具有十分优秀的特征提取能力,近期Transformer在计算机视觉领域中出现的频率越来越高。Swin Transformer通过使用窗口自注意力(W

MSA)机制以及移动窗口自注意力(SW

MSA)机制增加了窗口间的交互,大大提高了Transformer对于图片的全局特征提取能力。如果能够使用Swin Transformer结构搭建小篆识别网络,则其优秀的特征提取能力能够大大提高小篆识别任务的准确率。

技术实现思路

[0005]为了克服现有技术的不足,本专利技术提供一种基于Swin Transformer的小篆识别方法。该方法充分利用了小篆字与繁体字间包含的十分相似且丰富结构信息,设计了一种同时小篆识别以及将小篆图片转换为繁体字图片功能的网络结构,选用小篆图片及其对应的繁体字图片作为模型的输入,经过预处理操作后的小篆图片首先被送入到基于Swin Transformer搭建的编码器E中,编码得到图片全局特征;随后网络采用一种并行三分支结构,繁体图片生成分支使用基于Swin Transformer搭建的繁体图片生成解码器G
t
将图片全
局特征解码为对应的繁体字图片,并使用繁体图片判别器D
t
判断图片生成效果;小篆图片生成分支采用与繁体图片生成分支相同的网络结构,将图片全局特征解码为对应的小篆图片并进行判别,从而验证并提高解码器的特征提取效果;使用同样的方法,将所述小篆图片对应的繁体字图片送入到E中生成图片全局特征,接着分别送入到繁体图片生成分支以及小篆图片生成分支生成相应的繁体字图片以及小篆图片,从而约束E的编码效果以及繁体图片生成分支和小篆图片生成分支的图片生成效果;小篆预测分支使用基于Swin Transformer搭建的小篆预测分类器E
r
,将所述小篆图片的图片全局特征进行分类得到小篆识别结果,从而较高准确率完成小篆识别任务,并且可以实现小篆

繁体字转换功能,将小篆图片转换为相应的繁体字图片。
[0006]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0007]步骤S1:构建小篆图片训练集X
s
和测试集,以及所述小篆图片对应繁体字图片X
t
,并进行预处理;
[0008]步骤S2:将S1中所述的小篆图片进行图片分块并进行嵌入编码,送入到基于Swin Transformer搭建的E中,得到小篆图片的图片全局特征F
s

[0009]步骤S3:将S2中所述图片全局特征F
s
送入繁体图片生成分支,使用基于Swin Transformer搭建的繁体图片生成解码器G
t
将小篆特征解码为对应的繁体字图片Y
st
,并使用繁体图片判别器D
t
判断图片生成效果;
[0010]步骤S4:将S2中所述图片全局特征F
s
送入小篆图片生成分支,使用基于Swin Transformer搭建的小篆图片生成解码器G
s
将小篆特征解码为对应的小篆图片Y
ss
,并使用小篆图片判别器D
s
判断图片生成效果;
[0011]步骤S5:选择S1中所述对应繁体字图片作为网络输入,重复步骤S2至步骤S4,将对应繁体字图片解码为全局特征F
t
,通过繁体图片生成分支将所述F
t
解码为繁体字Y
tt
图片并进行判别,并通过小篆图片生成分支F
t
,解码为小篆图片Y
ts
并进行判别,通过利用小篆字与繁体字间十分相似的结构信息验证解码器的解码效果以及繁体图片生成分支和小篆图片生成分支的图片生成效果;
[0012]步骤S6:将S2中所述小篆图片全局特征F
s
送入小篆预测分支,使用基于Swin Transformer搭建的小篆预测分类器E
r
对F
s
进行分类,最终得到小篆预测结果Y
l

[0013]步骤S7:计算模型损失函数L,其中包括E的编码器损失L
F
,繁体图片生成分支以及小篆图片生成分支的图片生成损失L
I
,小篆预测分支的小篆预测损失L
C
,经反向传播训练网络;
[0014]步骤S8:使用小篆识别任务测试集,检验小篆识别任务的识别准确率。
[0015]本专利技术有益效果如下:
[0016]本专利技术利用小篆字与繁体字间十分相似的结构信息,将小篆图片对应的繁体字图片也作为模型的输入,从而达到辅助约束E的全局特征解码效果以及扩充数据集效果,提高繁体图片生成分支和小篆图片生成分支的图片生成质量的效果。
[0017]本专利技术基于小篆字与繁体字间结构信息相似的特点,除小篆预测分支外额外添加了繁体图片生成分支与小篆图片生成分支,繁体字图片生成分支能够通过繁体字与小本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Swin Transformer的小篆识别方法,其特征在于包括如下步骤:步骤S1:构建小篆图片训练集X
s
和测试集,以及所述小篆图片对应繁体字图片X
t
,并进行预处理;步骤S2:将步骤S1中所述的小篆图片进行图片分块并进行嵌入编码,送入到基于Swin Transformer搭建的编码器E中,得到小篆图片对应的图片全局特征F
s
;步骤S3:将步骤S2中所述图片全局特征F
s
送入繁体图片生成分支,使用基于Swin Transformer搭建的繁体图片生成解码器G
t
将图片全局特征F
s
解码为对应的繁体字图片Y
st
,并使用繁体图片判别器D
t
判断图片生成效果;步骤S4:将步骤S2中所述图片全局特征F
s
送入小篆图片生成分支,使用基于Swin Transformer搭建的小篆图片生成解码器G
s
将图片全局特征F
s
解码为对应的小篆图片Y
ss
,并使用小篆图片判别器D
s
判断图片生成效果;步骤S5:选择S1中所述对应繁体字图片作为网络输入,重复步骤S2至步骤S4,将对应繁体字图片解码为全局特征F
t
,通过繁体图片生成分支将所述F
t
解码为繁体字Y
tt
图片并进行判别,并通过小篆图片生成分支F
t
,解码为小篆图片Y
ts
并进行判别,通过利用小篆字与繁体字间十分相似的结构信息验证解码器的解码效果以及繁体图片生成分支和小篆图片生成分支的图片生成效果;步骤S6:将步骤S2中所述小篆图片全局特征F
s
送入小篆预测分支,使用基于Swin Transformer搭建的小篆预测分类器E
r
对F
s
进行分类,最终得到小篆预测结果Y
l
;步骤S7:计算模型损失函数L,其中包括E的编码器损失L
F
,繁体图片生成分支以及小篆图片生成分支的图片生成损失L
I
,小篆预测分支的小篆预测损失L
C
,经反向传播训练网络;步骤S8:使用小篆识别任务测试集,检验小篆识别任务的识别准确率。2.根据权利要求1所述的一种基于Swin Transformer的小篆识别方法,其特征在于所述步骤S1具体实现如下:S1.1从小篆字库中收集共6种小篆字体图片,每种小篆字体有3666个小篆字集;选择其中2种字体形状差异较大的字体作为测试集字体,剩余4种字体作为训练集字体;将3666种小篆字集随机分为两组,将一组具有2914个小篆字的字集作为训练集字集,剩余一组具有752个小篆字的字集作为测试集字集;将上述4种具有训练集字体的上述2914个训练集字集小篆图片,以及2914个训练集字集对应的繁体字图片进行对应配对,作为小篆识别任务训练集;将上述2种具有测试集字体的上述752个测试集字集小篆图片作为小篆识别任务测试集;S1.2将所述图片中的像素点按照灰度值分为0至255,共256个灰度,选定灰度级阈值200,对图片进行二值化处理,将图片中灰度值大于等于200的像素灰度值设为255,将图片中灰度值小于200的像素灰度值设为200,并通过双线性插值法将图片重塑为宽度256像素行高256像素大小,得到大小为1
×
256
×
256的小篆图片以及其对应的大小为1
×
256
×
256的繁体字图片。3.根据权利要求2所述的一种基于Swin Transformer的小篆识别方法,其特征在于所述步骤S2所述编码器E的网络结构具体如下:S2.1将S1中所述大小为1
×
256
×
256的小篆图片送入到分块编码层中,所述分块编码层具体包括一个输入通道数为1,输出通道数为96,步长为4并且卷积核大小为4
×
4的卷积
层,输出得到维度为96
×
64
×
64的分块特征;S2.2将所述大小为96
×
64
×
64的分块特征的后两维度合并,得到96
×
4096大小的分块特征,随后调换两维度的位置顺序,得到大小为4096
×
96的分块特征;S2.3创建下采样数组downsample,用于存储下采样图片的全局特征,将上述的4096
×
96大小分块特征存入downsample中;S2.4接着将所述特征送入到Swin Transformer块中[引用],Swin Transformer块具体包括一个W

MSATransformer层以及一个SW

MSATransformer层,Swin Transformer块不改变特征维度,输出得到4096
×
96大小的特征;S2.5将所述特征送入块合并层中,合并层将输入特征的图片全局特征大小降维成输入大小的1/4,并将通道数升维成输入大小的2倍,得到大小为1024
×
192的全局特征;S2.6将所述1024
×
192大小的特征存入downsample中;S2.7将所述特征送入到Swin Transformer块中,随后送入到合并层中,特征大小变为256
×
384,随后将所述特征存入downsample中;S2.8将所述特征送入到Swin Transformer块中,随后送入到合并层中,特征大小变为64
×
768;S2.9将所述特征送入W

MSA Transformer层中,计算图片全局特征,输出特征大小依然为64
×
768;S2.10重复步骤S2.9,将所述特征送入W

MSA Transformer层中,计算所述特征的全局特征,输出特征F
s
大小依然为64
×
768,作为E的输出图片全局特征。4.根据权利要求3所述的一种基于Swin Transformer的小篆识别方法,其特征在于所述步骤S3具体实现如下:S3.1将所述特征F
s
送入块扩展层,块扩展层将输入特征的图片全局特征大小升维成输入大小的4倍,并将通道数降维成输入大小的1/2倍,将所述特征由64
×
768大小,拓展为256
×
384大小;S3.2取出downsample中大小为256
×
384的E中特征,与所述特征在通道维度进行拼接,拼接后所述大小变为256
×
768,随后使用输出维度为输入维度1/2的线性层在通道维度对所述特征降维,所述特征大小变回256
×
384;S3.3将所述特征送入到Swin Transformer块中,计算所述特征的图片全局特征,输出全局特征大小依然为256
×
384;S3.4与步骤S3.1至S3.3类似,使用块扩展层将所述特征拓展至1024
×
192,将所述特征与downsample中大小为1024
×
192的特征进行拼接与降维,随后送入到Swin Transformer块中,输出大小1024
×
192的全局特征;S3.5与步骤S3.1至S3.3类似,使用块扩展层将所述特征拓展至4096
×
96,将所述特征与downsample中大小为4096
×
96的特征进行拼接与降维,随后送入到Swin Transformer块中,输出大小4096
×
96的全局特征;S3.6将所述特征送入4倍块扩展层,块扩展层将输入特征的图片全局特征大小升维成输入大小的16倍,将所述特征由4096
×
96大小,拓展为65536
×
96大小;S3.7将所述特征送入通道降维层中,得到生成的繁体字图片Y
st
,所述通道降维层具体操作如下:
S3.8将所述繁体字图片Y
st
送入D
t
中,得到图片判别结果。5.根据权利要求4所述的一种基于Swin Transformer的小篆识别方法,其特征在于所述步骤S3.1中块扩展层具体操作如下:S3.1.1使用输出维度为输入维度2倍的线性层,将特征的通道维度升维为原来的2倍,即将所述特征由64
×
768大小升维成64
×
1536大小;S3.1.2重塑所述特征,将所述特征的图片全局特征升维成4倍,将所述特征的通道降维成1/4倍,所述特征由64
×
1536大小,重塑为256
×
384大小;S3.1.3将所述特征送入维度为384的层归一化,输出特征大小依然为256
×
384。6.根据权利要求4或5所述的一种基于Swin Transformer的小篆识别方法,其特征在于所述步骤S3.6中所...

【专利技术属性】
技术研发人员:周文晖刘金宇汪启明张瑞天张桦戴国骏
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1