【技术实现步骤摘要】
本专利技术属于机器学习,尤其涉及一种用于分类不平衡流数据的新型主动学习方法。
技术介绍
1、近年来在数据收集、处理和分析方面的进步揭示了机器学习中的重大挑战,特别是对于那些为静态数据集设计的传统算法。相比之下,现代数据来源持续以高速流动大量信息,传统方法由于在速度、灵活性和韧性方面的局限而难以应对。
2、数据流是一个理想情况下应当在到达时即刻分析的持续数据流,这与侧重于静态数据子集的传统数据挖掘不同。在数据持续生成的环境中,实时分析至关重要,它能够实现即时洞察和及时决策,这在动态情况下至关重要。然而,数据流要求算法能够快速处理,以防止延迟和数据丢失,通常只能对数据进行单次处理,并且由于其潜在的无限性,这些算法操作的内存有限。
3、此外,数据流的特点是其变异性。传统机器学习假设在代表性数据子集上训练的模型在未来仍将有效,因为未来数据将与过去相似。然而,数据流可能不可预测地变化,改变数据特征和决策边界。这种现象,被称为“概念漂移”,指的是目标变量的统计属性的变化,影响各种实际应用,并需要随时间对模型进行调整。例如,在
...【技术保护点】
1.一种用于分类不平衡流数据的新型主动学习方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的用于分类不平衡流数据的新型主动学习方法,其特征在于,S1所述知识库包括每个类别的单独窗口,表示为KB={W1,W2,…WC},其中C代表到目前为止识别的类别总数,在每个窗口中,数据样本存储为四元组:(x,Label,ω,ωca),其中x是数据样本,Label表示真实或预测的类别,如果未知则保持未定义,ω是分配给样本的权重。
3.根据权利要求1所述的用于分类不平衡流数据的新型主动学习方法,其特征在于,S2所述集成包括多个k最近邻k-NN分类器,集成
...【技术特征摘要】
1.一种用于分类不平衡流数据的新型主动学习方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的用于分类不平衡流数据的新型主动学习方法,其特征在于,s1所述知识库包括每个类别的单独窗口,表示为kb={w1,w2,…wc},其中c代表到目前为止识别的类别总数,在每个窗口中,数据样本存储为四元组:(x,label,ω,ωca),其中x是数据样本,label表示真实或预测的类别,如果未知则保持未定义,ω是分配给样本的权重。
3.根据权利要求1所述的用于分类不平衡流数据的新型主动学习方法,其特征在于,s2所述集成包括多个k最近邻k-nn分类器,集成内部的...
【专利技术属性】
技术研发人员:乌丁·萨拉赫,杨勤丽,邵俊明,
申请(专利权)人:电子科技大学长三角研究院湖州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。