一种基于改进YOLO v3的古文字及字体识别方法技术

技术编号:24093664 阅读:42 留言:0更新日期:2020-05-09 09:14
本发明专利技术公开了一种基于改进YOLO v3的古文字及字体识别方法。该方法基于深度学习的目标检测方法,利用深层的神经网络结构,学习到古文字图像中“整体‑部分”的分解关系,通过特征提取网络获得有用的特征信息,并进行检测定位,再将图片的特征信息送入分类器进行分类识别,并使用包围框在图像中框选出古文字的位置。该方法解决了古文字具有复杂的内部结构,以及使用这些特征进行识别时精度低的问题。本方法提出的改进YOLO v3使用ShuffleNet v2作为模型的主干结构,使其更加高效。在对古文字及字体的识别上准确率达到98.81%,并且具有较好的稳定性和良好的鲁棒性,能够应用于古文字文本、碑帖等古文字识别场景。

A recognition method of ancient characters and fonts based on improved Yolo V3

【技术实现步骤摘要】
一种基于改进YOLOv3的古文字及字体识别方法
本专利技术涉及了一种基于深度学习的目标检测算法的图像识别方法,尤其是涉及了一种基于改进YOLOv3的古文字图像识别方法。
技术介绍
古文字记录着古时人们的社会生活,对古文字的研究作为钥匙,打开了研究古人的生活的方便之门。古文字学在研究中国古代历史和文化具有重大作用。在一些实物资料如甲骨、青铜器、石碑、古书等上面的文字内容里,包含有许多重要的历史信息,这些古文字的释读有助于对当时社会情况的了解。但是,古文字图像非常复杂,具有丰富性和逻辑性的结构信息。古文字具有复杂的内部结构,笔画多、笔画复杂、文字的相似度高,以及不同时期书写汉字的风格多变,使得古文字的识别比现代文字识别难度更高。目前存在多为现代汉字或者手写汉字识别,光学字符识别,前者识别准确率较低,很难适用于古文字识别,后者可用于古汉字识别但不能识别其字体。
技术实现思路
为了解决
技术介绍
中的识别准确率问题,本专利技术提出了一种基于深度学习目标检测算法改进YOLOv3的古文字图像识别方法,能高准确地识别古汉字及其字体并具有良好稳本文档来自技高网...

【技术保护点】
1.一种基于改进YOLO v3的古文字及字体识别方法,其特征在于,包括以下步骤:/n1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字,收集来自互联网的古文字图片,包含三种不同字体,分别为甲骨文、金文和楚系简帛;/n2)对收集的古文字图片进行扩充处理,获得古文字样本图像;/n3)遍历古文字样本图像,对每张图像用包围框对古文字进行字形字体标记处理,获得对应的label文件,它与古文字样本图像共同构成图像数据集;/n4)将图像数据集划分为训练验证集和测试集,将训练验证集划分为训练集和验证集,针对图像数据集中的古文字样本图像和label文件进行同比例缩放;/n5)网络调整,对Y...

【技术特征摘要】
1.一种基于改进YOLOv3的古文字及字体识别方法,其特征在于,包括以下步骤:
1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字,收集来自互联网的古文字图片,包含三种不同字体,分别为甲骨文、金文和楚系简帛;
2)对收集的古文字图片进行扩充处理,获得古文字样本图像;
3)遍历古文字样本图像,对每张图像用包围框对古文字进行字形字体标记处理,获得对应的label文件,它与古文字样本图像共同构成图像数据集;
4)将图像数据集划分为训练验证集和测试集,将训练验证集划分为训练集和验证集,针对图像数据集中的古文字样本图像和label文件进行同比例缩放;
5)网络调整,对YOLOv3网络进行轻量化,调整后的主干网络依次为Conv0,Conv1,Stage2,Stage3,Stage4,Stage5,Stage6;Conv0和Conv1均为3×3的1步长卷积块;每个Stage的开始阶段都是一个Shuffle空间上采样单元;然后接入N个Shuffle基本单元,Stage2~Stage6的N值依次为2、4、6、6、4;Shuffle基本单元构成为:接入的通道均分为两部分后,一部分通过1×1的1步长Conv+3×3的1步长DWConv+1×1的1步长Conv后与另一部分进行拼接,然后进行通道随机混合;Shuffle空间上采样单元构成为:接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv,1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv,对两者的输出进行拼接后再进行通道随机混合操作;使用通道随机混合操作,将深度不同的两个分支的卷积结果合并在一起,从而实现了高级和低级信息的特征融合,其中DWConv为深度卷积块;
6)模型的训练,每次选取多个训练集样本进行训练,获得训练模型,使用Adam算法基于训练数据迭代更新神经网络的权重;训练过程中在验证集样本中对训练模型进行验证,计算得到训练集以及验证集上的损失,观察网络的训练效果,最终选择损失值最小的模型作为model;
7)在测试集上对步骤6)最终获得的model进行测试,在测试集样本图像上预测并标注出古文字及字体的类别和置信度;
8)从拓印本和石碑上获取属于识别类别范围内的古文字图片,经过图像预处理后,输入model中,获得检测结果。


2.根据权利要求1所述的一种基于改进YOLOv3的古文字及字体识别方法,其特征在于:所述的步骤1)中,;选择的是原始图片,超过30张的古文字图片作为数据集;整个数据集包含三种字体100个字共计4000张原始图片。


3.根据权利要求1所述的一种基于改进YOLOv3的古文字及字体识别方法,其特征在于:对收集的古文字图片进行扩充处理具体为对图片进行缩放、调整亮度与对比度、翻转、旋转、添加噪声、模糊。


4.根据权利要求1所述的一种基于改进YOLOv3的古文字及字体识别方法,其特征在于:所述步骤3)中,对每张图像用包围框对古文字进行字形字体标记处理,具体为:利用标注工具对图...

【专利技术属性】
技术研发人员:董哲康石杰高明煜齐冬莲林辉品吴俊洁
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1