当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于不平衡数据的少样本学习分类器构建方法技术

技术编号:21200998 阅读:26 留言:0更新日期:2019-05-25 01:34
本发明专利技术涉及一种基于不平衡数据的少样本学习分类器构建方法,属于计算机数据分类技术领域。该方法:首先,根据孪生神经网络的一次学习和少样本学习特性设计了孪生平行全连接网络用于输入样本对的特征学习;然后,利用成本敏感优化器来处理输入样本对的不平衡问题,同时根据不同的误分类代价设计期望误分类成本函数,并将其融入网络参数优化算法中用于调节类不平衡分类权重。本发明专利技术能够在不平衡的、高维的和有限的目标数据集下,取得更好的分类结果,分类性能更加稳定。

A Method of Constructing Less Sample Learning Classifier Based on Unbalanced Data

The invention relates to a method for constructing a small sample learning classifier based on unbalanced data, belonging to the technical field of computer data classification. This method: Firstly, according to the one-time learning and few-sample learning characteristics of twin neural networks, a twin parallel full-connection network is designed for feature learning of input sample pairs; secondly, a cost-sensitive optimizer is used to deal with the imbalance of input sample pairs, and the expected misclassification cost function is designed according to different misclassification costs, which is integrated into the optimization calculation of network parameters. The method is used to adjust the class unbalanced classification weight. The method can achieve better classification results and more stable classification performance under unbalanced, high-dimensional and limited target data sets.

【技术实现步骤摘要】
一种基于不平衡数据的少样本学习分类器构建方法
本专利技术属于计算机数据分类
,涉及一种基于不平衡数据的少样本学习分类器构建方法。
技术介绍
数据分类是数据挖掘重点研究内容之一,它通过有价值的可用数据来对未知数据进行归纳分类,旨在探究变量和类之间的隐藏关系。目前基于数据驱动的机器学习分类算法大多都假设目标数据的每类样本比例相同,但在实际的二分类任务中,目标数据往往是不平衡的、高维的和有限的,在这种情况下,常规的机器学习分类算法很难获得良好的分类结果。针对类不平衡数据,Piri等人在文章“S.Piri,D.Delen,T.Liu,Asyntheticinformativeminorityover-sampling(simo)algorithmleveragingsupportvectormachinetoenhancelearningfromimbalanceddatasets,DecisionSupportSystems106(2018)15–29”中提出通过综合少样本信息提出了上采样算法,Sun等人在文章“B.Sun,H.Chen,J.Wang,H.Xie,Evolutionaryunder-samplingbasedbaggingensemblemethodforimbalanceddataclassification,FrontiersofComputerScience12(2)(2018)331–350”中基于Bag集成技术提出了数据下采样算法,虽然这些基于数据级的重采样方法解决了类不平衡问题,但其效果取决于采样的数据在多大程度上代表真实的分布数据;Tavares等人在文章“T.R.Tavares,A.L.I.Oliveira,G.G.Cabral,S.S.Mattos,R.Grigorio,Preprocessingunbalanceddatausingweightedsupportvectormachinesforpredictionofheartdiseaseinchildren,in:InternationalJointConferenceonNeuralNetworks,2014,pp.1-8”中提出在模型训练机制中引入不同的权重,使训练的分类器更加关注少样本数据的学习,但该方法的成功取决于模型训练过程中的微调和参数设置;Zheng在文章“J.Zheng,Cost-sensitiveboostingneuralnetworksforsoftwaredefectprediction,ExpertSystemswithApplications37(6)(2010)4537–4543”中建议通过代价敏感学习技术来处理类不平衡问题,认为错误分类的少数类样本的代价远远高于错误分类的多数类样本的代价。针对高维数据,Jolliffe等人在文章“I.T.Jolliffe,Principalcomponentanalysis,JournalofMarketingResearch87(100)(2002)513”中提出线性映射的主成分分析(PCA)的降维方法,它通过线性投影将高维数据映射到低维空间进行表示,以此减少数据维度同时保留较多的原数据特征。但PCA将目标数据作为一个整体对待,忽略了类别属性,容易丢弃重要的分类信息。Thakur等人在文章“S.Thakur,J.K.Sing,D.K.Basu,M.Nasipuri,Facerecognitionusingfisherlineardiscriminantanalysisandsupportvectormachine,in:Interna-tionalConference,2009,pp.19–26”中提出使用线性鉴别分析(LDA)将高维的数据投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征维数的目的。但LDA是特定类投影方法,局限性大,受样本种类限制。Wang等人在文章“J.Wang,Locallylinearembedding,GeometricStructureofHigh-DimensionalDataandDimensionalityReduction12(01)(2012)203–220”中提出非线性映射的局部线性嵌入(LLE)算法,它能够使降维的数据较好地保持原有数据的局部特征和流形结构,但算法复杂度高,对局部近邻数据的选择较为敏感。针对有限的数据,Fei等人在文章“F.-F.L,F.R,P.P,One-shotlearningofobjectcategories,IEEETransactionsonPatternAnalysisandMachineIntelligence28(4)(2006)594–611”中类比人的概念学习提出了基于少样本的一次学习算法;Koch等人在文章“G.Koch,SiameseNeuralNetworksforOne-shotImageRecognition,UniversityofToronto,2015”中针对仅有的几个样本设计了用于少样本学习的孪生卷积神经网络;Wang等人在文章“Q.Wang,J.Gao,Y.Yuan,Embeddingstructuredcontourandlocationpriorinsiamesedfullyconvolutionalnetworksforroaddetection,IEEETransactionsonIntelligentTransportationSystems19(1)(2017)230–241”中根据少量可用数据设计了孪生全连接网络用于道路检测,Shih等人在文章“C.H.Shih,B.C.Yan,S.H.Liu,B.Chen,Investigatingsiameselstmnetworksfortextcategorization,in:Asia-PacificSignalandInformationProcessingAssociationSummitandConference,2018,pp.641–646”中设计了孪生LSTM网络对有限文本进行分类。然而分类自然伴随着成本,因此一个有效的数据分类器需在分类算法中考虑错误分类成本。2017年,Huang等人在文章“K.H.Huang,H.T.Lin,Cost-sensitivelabelembeddingformulti-labelclassification,MachineLearning106(9-10)(2017)1725–1746”中提出了利用成本敏感学习技术来处理数据分类过程中类不平衡与误分类代价问题,但是传统的机器学习分类算法却较少考虑数据误分类代价不均衡等问题。基于上述文献分析,现有技术主要存在如下几个问题:1)在高维不平衡的少样本数据集上的分类效果不佳;2)算法复杂性高,性能依赖于数据数量和质量;3)较少考虑数据分类过程中的误分类代价问题,且不存在有效的二分类器能同时处理不平衡的、高维的和有限的目标分类数据。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于不平衡数据的少样本学习分类器构建方法,用于解决不平衡的、高维的和有限的目标数据无法统一进行二分类处理的问题,使得本文档来自技高网
...

【技术保护点】
1.一种基于不平衡数据的少样本学习分类器构建方法,其特征在于,该方法具体包括以下步骤:S1:构建基于孪生平行网络(Siamese Parallel networks)的深度学习网络(Siamese parallel fully‑connected neural networks,SPFCNN),即孪生平行全连接网络;S2:输入样本数据;S3:利用一对孪生平行全连接网络从高维属性的数据中提取深度表征用于SPFCNN分类器训练和学习,并在AdamW函数基础上融入期望误分类成本函数用于类不平衡学习,使其对不同的误分类代价进行成本敏感学习。

【技术特征摘要】
1.一种基于不平衡数据的少样本学习分类器构建方法,其特征在于,该方法具体包括以下步骤:S1:构建基于孪生平行网络(SiameseParallelnetworks)的深度学习网络(Siameseparallelfully-connectedneuralnetworks,SPFCNN),即孪生平行全连接网络;S2:输入样本数据;S3:利用一对孪生平行全连接网络从高维属性的数据中提取深度表征用于SPFCNN分类器训练和学习,并在AdamW函数基础上融入期望误分类成本函数用于类不平衡学习,使其对不同的误分类代价进行成本敏感学习。2.根据权利要求1所述的基于不平衡数据的少样本学习分类器构建方法,其特征在于,步骤S3中,所述AdamW函数用来优化SPFCNN分类器参数,在其权值衰减基础上融入期望误分类成本函数,并根据期望误分类成本函数的变化来调节类不平衡权重参数,使得基于AdamW优化的孪生平行全连接网络获得最优权重设置,进而消除数据类不平衡对本发明分类器性能的影响。3.根据权利要求1所述的基于不平衡数据的少样本学习分类器构建方法,其特征在于,步骤S3中,所述期望误分类成本函数具体包括:在不平衡数据的二分类过程中通常会遇到两种误分类错误,一种是将感兴趣的少数类误分为多...

【专利技术属性】
技术研发人员:赵林畅尚赵伟赵灵龙祎萌任柏行
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1