基于对偶集合多标记学习的书法作品图像分类方法技术

技术编号：18289997 阅读：55 留言：0更新日期：2018-06-24 04:55

本发明专利技术公开了一种基于对偶集合多标记学习的书法作品图像分类方法，包括图像收集与训练样本标记步骤，样本特征提取与分类器训练步骤，图像预测步骤；首先收集一定量书法家作品图像，经过图像处理后进行人工标注书法家和字体，然后对收集图像进行特征提取并训练分类器，最后在实际使用中利用训练得到的分类器对待预测的书法作品图像进行分类，得知该作品的书法家和字体。与现有技术相比，本发明专利技术的方法分类器训练方式新颖，分类测试准确率高。

全部详细技术资料下载

【技术实现步骤摘要】
基于对偶集合多标记学习的书法作品图像分类方法
本专利技术涉及机器学习中基于对偶集合多标记学习的分类算法，特别适用于书法作品图像的书法家和字体分类和预测。
技术介绍
长久以来，在图像分类问题中只对图像赋予一个标记的单标记学习问题得到了充分的研究，很多单标记学习算法尤其是二分类算法有坚实的理论基础，近年来以深度卷积神经网络算法为代表的深度学习技术把大规模多分类图像问题的分类准确率提升到了全新的高度。与此同时，在一些特定问题比如图像标注中，一幅图像往往含有多个实体，可以同时被赋予多个标记，多标记学习应运而生。在多标记学习中，每个样本被赋予同时多个标记，这些标记在训练过程中被分类器同时学习，预测时也会对未见样本同时输出多个标记。相比单标记学习，多标记学习具有更强的刻画问题的能力，也有更高的复杂度，更难被学习。在书法作品图像分类问题中，一般来说，每幅书法作品都是由某一位书法家以某种字体写成的，于是每张书法作品图像也就天然地拥有两个标记：书法家和字体。当遇到一幅陌生的书法作品时，如何同时确定书法家和字体成了一个问题。在这个问题里，每个样本有两个标记，每个标记分别来自一个标记集合，两个标记集合之间构成了对偶关系。在标记集合内部，由于每幅作品只能由一人以一种字体所写，因此无论是书法家标记还是字体标记都有且只有一个正标记，标记之间具有互斥性；在标记集合之间，不同书法家可能擅长不同的字体，某些书法家可能一直写几种特定的字体，标记之间具有共现性。因此，单标记学习算法无法刻画这个问题，也就无法解决这个问题，而直接运用多标记学习算法又不能很好地刻画每个标记集合内部与集合之间的关系。...
基于对偶集合多标记学习的书法作品图像分类方法

【技术保护点】
1.一种基于对偶集合多标记学习的书法作品图像分类方法，其特征在于，包括：图像收集与训练样本标记，收集书法作品图像，对它们进行图像处理后人工赋予书法家标记和字体标记；样本特征提取与分类器训练，对图像进行提取特征并训练分类器；图像预测，在实际使用中利用训练完毕的分类器对待预测的图像进行分类，进而同时得到书法家标记和字体标记。

【技术特征摘要】
1.一种基于对偶集合多标记学习的书法作品图像分类方法，其特征在于，包括：图像收集与训练样本标记，收集书法作品图像，对它们进行图像处理后人工赋予书法家标记和字体标记；样本特征提取与分类器训练，对图像进行提取特征并训练分类器；图像预测，在实际使用中利用训练完毕的分类器对待预测的图像进行分类，进而同时得到书法家标记和字体标记。2.如权利要求1所述的基于对偶集合多标记学习的书法作品图像分类方法，其特征在于，所述图像收集与训练样本标记步骤具体为：步骤100，收集已知书法家和可以判断出字体的书法作品图像；步骤101，对步骤100收集到的书法作品图像进行分割，以每个字作为一幅新的图像；步骤102，对步骤101处理后的单字书法作品图像统一尺寸；步骤103，对步骤102处理后的图像用中值滤波进行去噪，对于有形变的图像再进行透视矫正；步骤104，对步骤103处理后的图像进行二值化处理，将每幅图像中的字处理为黑色，背景为白色；步骤105，对步骤104处理后的图像赋予相应的书法家标记和字体标记。3.如权利要求2所述的基于对偶集合多标记学习的书法作品图像分类方法，其特征在于，所述样本特征提取与分类器训练的具体步骤为：步骤200，对步骤105处理后的图像进行特征提取，提取后的特征数据作为训练数据；步骤201，对步骤200得到的训练集数据中所有样本赋予两组权重：“书法家”权重向量和“字体”权重向量，两组向量中所有元素相等且和为1；步骤202，进入迭代过程，根据步骤201中的权重对样本进行采样，得到两组新样本，一组是“书法家”组样本特征和权重及相应的书法家标记，另一组是“字体”组样本特征和权重及相应的字体标记；步骤203，以“字体”组样本特征和相应的字体标记，训练径向基神经网络多分类器hraw；步骤204，用步骤203训练得到的分类器hraw在“书法家”组样本特征上预测得到字体伪标记；步骤205，将“书法家”组样本特征与字体伪标记矩阵合并得到新的特征矩阵，再结合书法家标记训练得到分类器ha；步骤206，将“字体”组样本特征与字体标记矩阵合并得到新特征矩阵，用步骤205训练得到的分类器ha在这个新特征矩...

【专利技术属性】
技术研发人员：姜远，刘冲，周志华，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人