The invention relates to a method for constructing a small sample learning classifier based on unbalanced data, belonging to the technical field of computer data classification. This method: Firstly, according to the one-time learning and few-sample learning characteristics of twin neural networks, a twin parallel full-connection network is designed for feature learning of input sample pairs; secondly, a cost-sensitive optimizer is used to deal with the imbalance of input sample pairs, and the expected misclassification cost function is designed according to different misclassification costs, which is integrated into the optimization calculation of network parameters. The method is used to adjust the class unbalanced classification weight. The method can achieve better classification results and more stable classification performance under unbalanced, high-dimensional and limited target data sets.
【技术实现步骤摘要】
一种基于不平衡数据的少样本学习分类器构建方法
本专利技术属于计算机数据分类
,涉及一种基于不平衡数据的少样本学习分类器构建方法。
技术介绍
数据分类是数据挖掘重点研究内容之一,它通过有价值的可用数据来对未知数据进行归纳分类,旨在探究变量和类之间的隐藏关系。目前基于数据驱动的机器学习分类算法大多都假设目标数据的每类样本比例相同,但在实际的二分类任务中,目标数据往往是不平衡的、高维的和有限的,在这种情况下,常规的机器学习分类算法很难获得良好的分类结果。针对类不平衡数据,Piri等人在文章“S.Piri,D.Delen,T.Liu,Asyntheticinformativeminorityover-sampling(simo)algorithmleveragingsupportvectormachinetoenhancelearningfromimbalanceddatasets,DecisionSupportSystems106(2018)15–29”中提出通过综合少样本信息提出了上采样算法,Sun等人在文章“B.Sun,H.Chen,J.Wang,H.Xie,Evolutionaryunder-samplingbasedbaggingensemblemethodforimbalanceddataclassification,FrontiersofComputerScience12(2)(2018)331–350”中基于Bag集成技术提出了数据下采样算法,虽然这些基于数据级的重采样方法解决了类不平衡问题,但其效果取决于采样的数据在多大程度上代表真实的分布 ...
【技术保护点】
1.一种基于不平衡数据的少样本学习分类器构建方法,其特征在于,该方法具体包括以下步骤:S1:构建基于孪生平行网络(Siamese Parallel networks)的深度学习网络(Siamese parallel fully‑connected neural networks,SPFCNN),即孪生平行全连接网络;S2:输入样本数据;S3:利用一对孪生平行全连接网络从高维属性的数据中提取深度表征用于SPFCNN分类器训练和学习,并在AdamW函数基础上融入期望误分类成本函数用于类不平衡学习,使其对不同的误分类代价进行成本敏感学习。
【技术特征摘要】
1.一种基于不平衡数据的少样本学习分类器构建方法,其特征在于,该方法具体包括以下步骤:S1:构建基于孪生平行网络(SiameseParallelnetworks)的深度学习网络(Siameseparallelfully-connectedneuralnetworks,SPFCNN),即孪生平行全连接网络;S2:输入样本数据;S3:利用一对孪生平行全连接网络从高维属性的数据中提取深度表征用于SPFCNN分类器训练和学习,并在AdamW函数基础上融入期望误分类成本函数用于类不平衡学习,使其对不同的误分类代价进行成本敏感学习。2.根据权利要求1所述的基于不平衡数据的少样本学习分类器构建方法,其特征在于,步骤S3中,所述AdamW函数用来优化SPFCNN分类器参数,在其权值衰减基础上融入期望误分类成本函数,并根据期望误分类成本函数的变化来调节类不平衡权重参数,使得基于AdamW优化的孪生平行全连接网络获得最优权重设置,进而消除数据类不平衡对本发明分类器性能的影响。3.根据权利要求1所述的基于不平衡数据的少样本学习分类器构建方法,其特征在于,步骤S3中,所述期望误分类成本函数具体包括:在不平衡数据的二分类过程中通常会遇到两种误分类错误,一种是将感兴趣的少数类误分为多...
【专利技术属性】
技术研发人员:赵林畅,尚赵伟,赵灵,龙祎萌,任柏行,
申请(专利权)人:重庆大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。