一种基于距离匹配性度量的不平衡数据增强分类算法制造技术

技术编号:29676171 阅读:22 留言:0更新日期:2021-08-13 21:58
本发明专利技术公开了一种基于距离匹配性度量的不平衡数据增强分类算法,即充分利用未标记的数据数据,结合一定的先验知识,以相似性度量的方式利用未标记数据以扩充少数类,缓解某些分类算法的由于数据不平衡问题所导致的少数类识别效果不佳的问题,经现实场景的数据的验证,本发明专利技术表现效果良好。

【技术实现步骤摘要】
一种基于距离匹配性度量的不平衡数据增强分类算法
本专利技术涉及一种新的数据分类算法,一种基于距离匹配性度量的不平衡数据增强分类算法。
技术介绍
数据分类任务的目的在于针对一批输入数据集合Data={d1,d2,...,dm},这些数据分别属于类别集合Lable={l1,l2,...ln},数据集合Data与类别集合Label之间存在一定的映射关系,即存在关系f:Data→Lable。机器学习分类任务的学习目标便是学习出数据Data中的决策边界,实现对数据Data中各个类别划分。在理想的分类任务中,对于所获数据的数据集,其数据的标签信息是完备且均衡的,即数据集中包含大量的标记信息,并且这些数据中所有标签类别之间的数量比例成均衡的状态,这样的数据任务状态一般在学术研究的任务中比较常见。然而在现实的应用场景中,受限于数据采集的难度以及数据标记的难度,用于机器学习分类任务的数据往往存在数据量以及数据标记信息不足的问题,这将对机器学习模型最终表现效果产生较大的影响。在某些领域十分专精的机器学习任务中,对于一个具体的机器学习分类任务而言,用于分类的数据,往往需要专业的领域知识才能理解其内涵,所以存在一定的数据标记难度。上述困难导致大量的可供学习的数据中,只有少部分进行了数据标记,尤其是在一些正样本标记困难场景中,十分容易出现正负样本标记数量不均衡的情况。针对该种数据分类不平衡的状态,需要在充分利用现有数据的基础上进行机器学习模型的训练,以期待达到良好的表现效果。
技术实现思路
专利技术目的:本专利技术针对包含有监督标记信息类别不平衡,包含海量无标记数据,且这些标记数据与未标记数据之间具有一定相似性度量方式的机器学习分类场景中,针对上述场景提出了一种新的数据分类算法:一种基于距离匹配性度量的不平衡数据增强分类算法。通过度量分类任务中少量的有监督数据与无监督数据之间的相似性,并利用海量的无标记数据,基于前述相似性度量结果,以半监督的方式进行数据增强,从而扩充用于机器学习模型进行分类学习的数据,并以此提升模型的分类效果。技术方案:为了实现上述目的,本专利技术提出了一种基于距离匹配性度量的不平衡数据增强分类算法,主要包括以下步骤:步骤1:任务算法匹配判断;步骤2:选定不平衡数据数据集中的少数类;步骤3:针对需要扩充的数据选定需要进行扩充的无监督数据范围;步骤4:进行数据的相似性度量;步骤5:设定数据度量筛选阈值;步骤6、模型训练;步骤7、利用模型进行分类。根据本专利技术的一个方面,所述构建目标数据片段表示为:首先,针对所需要处理的任务,分析数据集Data={d1,d2,...,dm},即附图3中的少数类,并基于各个标签下的数据统计其信息,构造数据集中各个数据集中不同标签下的比例集合{|set1|,|set2|,...,|setm|},如果在比例集合中存在数据量悬殊较大的情况,则表明数据集中存在类别不均衡的情况;其次,分析任务中数据之间的相似情况,以基于欧氏距离度量计算数据之间的相似性,如果可以则该任务满足本算法的应用场景的需求。根据本专利技术的一个方面,针对所述步骤1中的数据片段,设定一定的少数类阈值,并针对不平衡数据集中各个类别别签下的比例,选定那些类别比例较少的数据,作为被扩充的数据集MinorityData={d1,d2,...dn}。根据本专利技术的一个方面,所述步骤3中的针对需要扩充的数据选定需要进行扩充的无监督数据范围具体方法如下:分析被需要被扩充的少数类数据集MinorityData,并针对数据集中的每一条少数类数据数di;针对其在现实场景中的分布情况,基于每一条少数类数据di,在其物理空间上的周围采集部分的无监督数据,并基于这些无监督数据作为潜在的半监督数据扩充对象数据,依次构建数据集CandidateSeti={Set1,Set2,...Setn}。根据本专利技术的一个方面,所述步骤4中的数据的相似性度量如下:完成上述步骤之后,针对被扩充数据集MinorityData={d1,d2,...dn}中的每一条数据di,基于其周围的候选数据集以相似度的度量计算方式,计算候选数据集Seti中找出与di最为相似的数据。根据本专利技术的一个方面,所述相似度的度量计算方式是基于距离的方式度量与被度量数据di之间的相似度,具体计算步骤如下:对于候选集数据Seti中,首先针对其进行无监督聚类,聚类方式使用算法“k-means”,“DBSCAN”以及“层次密度聚类”方法;基于聚类结果,候选集数据Seti被划分为Seti={cluster1,cluster2,...,clustern};随后一次对聚类结果中的数据进行度量,依次计算聚类结果clusteri与数据di之间的距离,计算形式如下:得出每一个聚类结果与数据di之间的距离Dis={dis1,dis2,...disn}。根据本专利技术的一个方面,所述步骤5中的设定数据度量筛选阈值方法如下:计算距离数据di,最近的聚类集合argminDistance(di,xi),并返回对应的聚类集合cluster;将数据集cluster添加到训练数据中,此外可以设定一定的阈值,将阈值小于一定范围内的数据添加到训练集中以扩充训练数据。根据本专利技术的一个方面,所述步骤6模型训练为:基于步骤5采集所得的数据,利用少部分有监督的标记数据与半监督数据进行分类模型的训练,再利用未进行训练的有监督数据进行模型测试,以确切的真实标记数据,评判模型的分类效果。根据本专利技术的一个方面,所述步骤7模型分类利用步骤6中的数据进行模型分类。有益效果:本专利技术的改进之处在于,基于一系列数据之间可以进行相似性度量的数据,针对部分样本分布不均衡的分类任务,利用前述相似性度量的方式进行半监督学习的构造扩充,并基于这个写扩充的数据进行模型的训练学习,经现实验证,本专利技术能有效的缓解不平衡数据集中少数类识别不够精确的问题。附图说明图1是基于距离匹配性度量的不平衡数据增强分类算法流程图。图2是半监督聚类收敛过程图。图3是不平衡分类任务样本数据集分布示意图。具体实施方式如图1所示,在本实施例中,一种基于距离匹配性度量的不平衡数据增强分类算法主要步骤如下:步骤1、首先分析所需要进行机器学习分类的任务,判断有监督标记数据中,正负样本的比例之间是否存在数据不平衡的状态。其次、判断任务中有监督信息无监督数据之间是否存在可度量的形式。如果存在可度量的方式且标记数据不平衡,则说明该机器学习分类任务满足本算法的需求,并可以实施后续步骤。步骤2、在进一步实施例中,分析标记数据集LableSet={set1,set1,...setn}中不同类别之间的比例,并确定需要进行数据增强的数据类别标签argmin{|set1|,|set2|,...|setn|}。步骤3、在进一步实施例中,针对本文档来自技高网...

【技术保护点】
1.一种基于距离匹配性度量的不平衡数据增强分类算法算法,其特征在于,主要包括以下步骤:/n步骤1:任务算法匹配判断;/n步骤2:选定不平衡数据数据集中的少数类;/n步骤3:针对需要扩充的数据选定需要进行扩充的无监督数据范围;/n步骤4:进行数据的相似性度量;/n步骤5:设定数据度量筛选阈值;/n步骤6、模型训练;/n步骤7、利用模型进行分类。/n

【技术特征摘要】
1.一种基于距离匹配性度量的不平衡数据增强分类算法算法,其特征在于,主要包括以下步骤:
步骤1:任务算法匹配判断;
步骤2:选定不平衡数据数据集中的少数类;
步骤3:针对需要扩充的数据选定需要进行扩充的无监督数据范围;
步骤4:进行数据的相似性度量;
步骤5:设定数据度量筛选阈值;
步骤6、模型训练;
步骤7、利用模型进行分类。


2.根据权利要求1所述的一种基于距离匹配性度量的不平衡数据增强分类算法算法,其特征在于,所述构建目标数据片段表示为:
首先,针对所需要处理的任务,分析数据集Data={d1,d2,...,dm},并基于各个标签下的数据统计其信息,构造数据集中各个数据集中不同标签下的比例集合{|set1|,|set2|,...,|setm|},如果在比例集合中存在数据量悬殊较大的情况,则表明数据集中存在类别不均衡的情况;
其次,分析任务中数据之间的相似情况,以基于欧氏距离度量计算数据之间的相似性,如果可以则该任务满足本算法的应用场景的需求。


3.根据权利要求1所述的一种基于距离匹配性度量的不平衡数据增强分类算法算法,其特征在于,针对所述步骤1中的数据片段,设定一定的少数类阈值,并针对不平衡数据集中各个类别别签下的比例,选定那些类别比例较少的数据,作为被扩充的数据集MinorityData={d1,d2,...dn}。


4.根据权利要求1所述的一种基于距离匹配性度量的不平衡数据增强分类算法算法,其特征在于,所述步骤3中的针对需要扩充的数据选定需要进行扩充的无监督数据范围具体方法如下:
分析被需要被扩充的少数类数据集MinorityData,并针对数据集中的每一条少数类数据数di;
针对其在现实场景中的分布情况,基于每一条少数类数据di,在其物理空间上的周围采集部分的无监督数据,并基于这些无监督数据作为潜在的半监督数据扩充对象数据,依次构建数据集CandidateSeti={Set1,Set2,...Setn}。


5.根据权利要求1所述的一种基于距离匹配性度量的不平...

【专利技术属性】
技术研发人员:孙栓柱周春蕾李逗孙彬王林王其祥高进李春岩沈洋黄治军张磊傅高健周心澄
申请(专利权)人:江苏方天电力技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1