当前位置: 首页 > 专利查询>清华大学专利>正文

基于少次学习的甲骨文单字识别方法和装置制造方法及图纸

技术编号:30362349 阅读:27 留言:0更新日期:2021-10-16 17:20
本发明专利技术提供一种基于少次学习的甲骨文单字识别方法和装置,其中方法包括:获取甲骨文单字图片;将所述甲骨文单字图片输入至甲骨文单字识别模型,输出与所述甲骨文单字图片相对应的甲骨文单字类别识别结果;其中,所述甲骨文单字识别模型是基于甲骨文单字样本数据以及预先确定的甲骨文单字样本类别标签进行训练后得到。由于甲骨文的文字样本数量很少,本发明专利技术对甲骨文单字识别模型的训练方式是采用少次学习的方式进行,能够针对甲骨文单字的数据长尾分布特点,做到同时强化模型的单字表示与特征提取能力,克服过拟合,最终提高模型在真实大规模情境中的识别和移植效果。真实大规模情境中的识别和移植效果。真实大规模情境中的识别和移植效果。

【技术实现步骤摘要】
基于少次学习的甲骨文单字识别方法和装置


[0001]本专利技术涉及图像识别
,尤其涉及一种基于少次学习的甲骨文单字识别方法和装置。

技术介绍

[0002]单字识别任务旨在对输入的单字进行识别,确定其类别。甲骨文单字识别任务可以被建模为图像分类任务,即给定某张甲骨文单字的图片输入,输出其对应的类别。随着深度学习的发展,基于卷积神经网络的单字识别模型表现已经在MNIST手写数字识别分类等多个数据集上得到了验证,很多基于卷积神经网络(CNN)的方法如早期的LeNet、AlexNet以及后来的ResNet、DenseNet等都在图像分类任务上表现不俗。但对于甲骨学研究,甲骨文单字识别面临着单字种类多且样本数量不均的问题。因此,需要解决的是在数据分布稀疏的情况下,如何设计模型,使其能够对单字进行有效的表示和学习,把握甲骨单字笔画中的深刻特征。
[0003]已有的模型只考虑了每类含多个样本的单字数据,在缩小范围的单字空间中进行分类。这样的模型在精挑细选的单字上进行训练,容易造成过拟合问题,只能对事先训练中见到的样本进行分类,故而很难在真实甲骨单字的大规模数据上使用。

技术实现思路

[0004]本专利技术提供一种基于少次学习的甲骨文单字识别方法和装置,用以解决现有技术中模型在精挑细选的单字上进行训练,容易造成过拟合问题,只能对事先训练中见到的样本进行分类,很难在真实甲骨单字的大规模数据上使用的缺陷,实现针对甲骨文单字的数据长尾分布特点,做到同时强化模型的单字表示与特征提取能力,克服过拟合,最终提高模型在真实大规模情境中的识别和移植效果。
[0005]第一方面,本专利技术提供一种基于少次学习的甲骨文单字识别方法,包括:
[0006]获取甲骨文单字图片;
[0007]将甲骨文单字图片输入至甲骨文单字识别模型,输出与所述甲骨文单字图片相对应的甲骨文单字类别识别结果;
[0008]其中,所述甲骨文单字识别模型是基于甲骨文单字样本数据以及预先确定的甲骨文单字样本类别标签进行训练后得到。
[0009]进一步,根据本专利技术提供根据的基于少次学习的甲骨文单字识别方法,其中,所述将甲骨文单字图片输入至甲骨文单字识别模型,输出与所述甲骨文单字图片相对应的甲骨文单字类别识别结果,包括:
[0010]将所述甲骨文单字图片输入至所述甲骨文单字识别模型中的甲骨文单字编码器层,获取所述甲骨文单字图片所对应的隐藏表示;
[0011]将所述隐藏表示输入至所述甲骨文单字识别模型中的甲骨文单字分类器层,确定所述甲骨文单字图片所对应的甲骨文单字类别识别结果。
[0012]进一步,根据本专利技术提供根据的基于少次学习的甲骨文单字识别方法,其中,所述获取所述甲骨文单字图片所对应的隐藏表示,具体包括:
[0013]获取所述甲骨文单字图片的像素颜色构成的二维矩阵;
[0014]将所述甲骨文单字图片输入嵌入层中,将所述二维矩阵嵌入到低维稠密向量空间中,获取所述甲骨文单字的隐藏表示。
[0015]进一步,根据本专利技术提供根据的基于少次学习的甲骨文单字识别方法,其中,所述将所述隐藏表示输入至所述甲骨文单字识别模型中的甲骨文单字分类器层,确定所述甲骨文单字图片所对应的甲骨文单字类别识别结果,具体包括:
[0016]确定所述预先确定的甲骨文单字样本类别的隐藏表示原型;
[0017]确定甲骨文单字图片的所述隐藏表示与所述预先确定的甲骨文单字样本类别的隐藏表示原型的距离;
[0018]依据所述距离确定所述甲骨文单字图片所对应的甲骨文单字类别识别结果。
[0019]进一步,根据本专利技术提供根据的基于少次学习的甲骨文单字识别方法,其中,所述确定所述预先确定的甲骨文单字样本类别的隐藏表示原型,具体包括:
[0020]确定所述预先确定的甲骨文单字样本类别中所有样本的隐藏表示;
[0021]依据所述所有样本的隐藏表示确定所述所有样本的隐藏表示的均值作为所述预先确定的甲骨文单字样本类别的隐藏表示原型。
[0022]第二方面,本专利技术提供一种基于少次学习的甲骨文单字识别装置,包括:
[0023]第一处理模块,用于获取甲骨文单字图片;
[0024]第二处理模块,用于将所述甲骨文单字图片输入至甲骨文单字识别模型,输出与所述甲骨文单字图片相对应的甲骨文单字类别识别结果;
[0025]其中,所述甲骨文单字识别模型是基于甲骨文单字样本数据以及预先确定的甲骨文单字样本类别标签进行训练后得到。
[0026]进一步,根据本专利技术提供根据的基于少次学习的甲骨文单字识别装置,其中,所述第二处理模块,具体用于:
[0027]将所述甲骨文单字图片输入至所述甲骨文单字识别模型中的甲骨文单字编码器层,获取所述甲骨文单字图片所对应的隐藏表示;
[0028]将所述隐藏表示输入至所述甲骨文单字识别模型中的甲骨文单字分类器层,确定所述甲骨文单字图片所对应的甲骨文单字类别识别结果。
[0029]进一步,根据本专利技术提供根据的基于少次学习的甲骨文单字识别装置,其中,所述第二处理模块中所述获取所述甲骨文单字图片所对应的隐藏表示,具体用于:
[0030]获取所述甲骨文单字图片的像素颜色构成的二维矩阵;
[0031]将所述甲骨文单字图片输入嵌入层中,将所述二维矩阵嵌入到低维稠密向量空间中,获取所述甲骨文单字的隐藏表示。
[0032]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于少次学习的甲骨文单字识别方法的步骤。
[0033]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于少次学习的甲骨文单字识别
方法的步骤。
[0034]本专利技术提供的基于少次学习的甲骨文单字识别方法和装置,通过将甲骨文单字图片输入至甲骨文单字识别模型,输出与所述甲骨文单字图片相对应的甲骨文单字类别识别结果;其中,所述甲骨文单字识别模型是基于甲骨文单字样本数据以及预先确定的甲骨文单字样本类别标签进行训练后得到。由于甲骨文的文字样本数量很少,本专利技术对甲骨文单字识别模型的训练方式是采用少次学习的方式进行,能够针对甲骨文单字的数据长尾分布特点,做到同时强化模型的单字表示与特征提取能力,克服过拟合,最终提高模型在真实大规模情境中的识别和移植效果。
附图说明
[0035]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1是本专利技术提供的基于少次学习的甲骨文单字识别方法的流程示意图;
[0037]图2是本专利技术提供的甲骨文单字识别方法模型的嵌入函数结构;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于少次学习的甲骨文单字识别方法,其特征在于,包括:获取甲骨文单字图片;将所述甲骨文单字图片输入至甲骨文单字识别模型,输出与所述甲骨文单字图片相对应的甲骨文单字类别识别结果;其中,所述甲骨文单字识别模型是基于甲骨文单字样本数据以及预先确定的甲骨文单字样本类别标签进行训练后得到。2.根据权利要求1所述的基于少次学习的甲骨文单字识别方法,其特征在于,所述将甲骨文单字图片输入至甲骨文单字识别模型,输出与所述甲骨文单字图片相对应的甲骨文单字类别识别结果,包括:将所述甲骨文单字图片输入至所述甲骨文单字识别模型中的甲骨文单字编码器层,获取所述甲骨文单字图片所对应的隐藏表示;将所述隐藏表示输入至所述甲骨文单字识别模型中的甲骨文单字分类器层,确定所述甲骨文单字图片所对应的甲骨文单字类别识别结果。3.根据权利要求2所述的基于少次学习的甲骨文单字识别方法,其特征在于,所述获取所述甲骨文单字图片所对应的隐藏表示,具体包括:获取所述甲骨文单字图片的像素颜色构成的二维矩阵;将所述甲骨文单字图片输入嵌入层中,将所述二维矩阵嵌入到低维稠密向量空间中,获取所述甲骨文单字的隐藏表示。4.根据权利要求2所述的基于少次学习的甲骨文单字识别方法,其特征在于,所述将所述隐藏表示输入至所述甲骨文单字识别模型中的甲骨文单字分类器层,确定所述甲骨文单字图片所对应的甲骨文单字类别识别结果,具体包括:确定所述预先确定的甲骨文单字样本类别的隐藏表示原型;确定甲骨文单字图片的所述隐藏表示与所述预先确定的甲骨文单字样本类别的隐藏表示原型的距离;依据所述距离确定所述甲骨文单字图片所对应的甲骨文单字类别识别结果。5.据权利要求4所述的基于少次学习的甲骨文单字识别方法,其特征在于,所述确定所述预先确定的甲骨文单字样本类别的隐藏表示原型,具体包...

【专利技术属性】
技术研发人员:刘知远孙茂松邱可玥白钰卓韩旭
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1