【技术实现步骤摘要】
一种基于距离匹配性度量的不平衡数据增强分类算法
本专利技术涉及一种新的数据分类算法,一种基于距离匹配性度量的不平衡数据增强分类算法。
技术介绍
数据分类任务的目的在于针对一批输入数据集合Data={d1,d2,...,dm},这些数据分别属于类别集合Lable={l1,l2,...ln},数据集合Data与类别集合Label之间存在一定的映射关系,即存在关系f:Data→Lable。机器学习分类任务的学习目标便是学习出数据Data中的决策边界,实现对数据Data中各个类别划分。在理想的分类任务中,对于所获数据的数据集,其数据的标签信息是完备且均衡的,即数据集中包含大量的标记信息,并且这些数据中所有标签类别之间的数量比例成均衡的状态,这样的数据任务状态一般在学术研究的任务中比较常见。然而在现实的应用场景中,受限于数据采集的难度以及数据标记的难度,用于机器学习分类任务的数据往往存在数据量以及数据标记信息不足的问题,这将对机器学习模型最终表现效果产生较大的影响。在某些领域十分专精的机器学习任务中,对于一个具体的机器学习分类任务而言,用于分类的数据,往往需要专业的领域知识才能理解其内涵,所以存在一定的数据标记难度。上述困难导致大量的可供学习的数据中,只有少部分进行了数据标记,尤其是在一些正样本标记困难场景中,十分容易出现正负样本标记数量不均衡的情况。针对该种数据分类不平衡的状态,需要在充分利用现有数据的基础上进行机器学习模型的训练,以期待达到良好的表现效果。
技术实现思路
专利技术目的:本 ...
【技术保护点】
1.一种基于距离匹配性度量的不平衡数据增强分类算法算法,其特征在于,主要包括以下步骤:/n步骤1:任务算法匹配判断;/n步骤2:选定不平衡数据数据集中的少数类;/n步骤3:针对需要扩充的数据选定需要进行扩充的无监督数据范围;/n步骤4:进行数据的相似性度量;/n步骤5:设定数据度量筛选阈值;/n步骤6、模型训练;/n步骤7、利用模型进行分类。/n
【技术特征摘要】
1.一种基于距离匹配性度量的不平衡数据增强分类算法算法,其特征在于,主要包括以下步骤:
步骤1:任务算法匹配判断;
步骤2:选定不平衡数据数据集中的少数类;
步骤3:针对需要扩充的数据选定需要进行扩充的无监督数据范围;
步骤4:进行数据的相似性度量;
步骤5:设定数据度量筛选阈值;
步骤6、模型训练;
步骤7、利用模型进行分类。
2.根据权利要求1所述的一种基于距离匹配性度量的不平衡数据增强分类算法算法,其特征在于,所述构建目标数据片段表示为:
首先,针对所需要处理的任务,分析数据集Data={d1,d2,...,dm},并基于各个标签下的数据统计其信息,构造数据集中各个数据集中不同标签下的比例集合{|set1|,|set2|,...,|setm|},如果在比例集合中存在数据量悬殊较大的情况,则表明数据集中存在类别不均衡的情况;
其次,分析任务中数据之间的相似情况,以基于欧氏距离度量计算数据之间的相似性,如果可以则该任务满足本算法的应用场景的需求。
3.根据权利要求1所述的一种基于距离匹配性度量的不平衡数据增强分类算法算法,其特征在于,针对所述步骤1中的数据片段,设定一定的少数类阈值,并针对不平衡数据集中各个类别别签下的比例,选定那些类别比例较少的数据,作为被扩充的数据集MinorityData={d1,d2,...dn}。
4.根据权利要求1所述的一种基于距离匹配性度量的不平衡数据增强分类算法算法,其特征在于,所述步骤3中的针对需要扩充的数据选定需要进行扩充的无监督数据范围具体方法如下:
分析被需要被扩充的少数类数据集MinorityData,并针对数据集中的每一条少数类数据数di;
针对其在现实场景中的分布情况,基于每一条少数类数据di,在其物理空间上的周围采集部分的无监督数据,并基于这些无监督数据作为潜在的半监督数据扩充对象数据,依次构建数据集CandidateSeti={Set1,Set2,...Setn}。
5.根据权利要求1所述的一种基于距离匹配性度量的不平...
【专利技术属性】
技术研发人员:孙栓柱,周春蕾,李逗,孙彬,王林,王其祥,高进,李春岩,沈洋,黄治军,张磊,傅高健,周心澄,
申请(专利权)人:江苏方天电力技术有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。