一种用于分类不平衡流数据的新型主动学习方法技术

技术编号:43512663 阅读:28 留言:0更新日期:2024-11-29 17:14
本发明专利技术的目的是引入一种专门为分类不平衡流数据而设计的新型主动学习方法。它有效地适应了实时数据流的动态挑战。该方法的核心是一个先进的数据管理系统,该系统使用复杂的结构创建紧凑的数据摘要,这对于克服内存限制至关重要。该方法使用多窗口知识库,为每个数据类设置单独的固定大小窗口,以保持独特的结构并有效地解决不平衡问题。它还包括一组动态调整以适应数据变化性的k‑最近邻k‑NN分类器。主动学习部分通过混合使用不确定性和随机抽样,专注于代表性不足的类别,优化了有限标签资源的使用。这种全面的策略不仅解决了数据变化性、新标签和类别不平衡的问题,还提高了标签过程的效率,确保在动态数据环境中实现高准确性和适应性。

【技术实现步骤摘要】

本专利技术属于机器学习,尤其涉及一种用于分类不平衡流数据的新型主动学习方法


技术介绍

1、近年来在数据收集、处理和分析方面的进步揭示了机器学习中的重大挑战,特别是对于那些为静态数据集设计的传统算法。相比之下,现代数据来源持续以高速流动大量信息,传统方法由于在速度、灵活性和韧性方面的局限而难以应对。

2、数据流是一个理想情况下应当在到达时即刻分析的持续数据流,这与侧重于静态数据子集的传统数据挖掘不同。在数据持续生成的环境中,实时分析至关重要,它能够实现即时洞察和及时决策,这在动态情况下至关重要。然而,数据流要求算法能够快速处理,以防止延迟和数据丢失,通常只能对数据进行单次处理,并且由于其潜在的无限性,这些算法操作的内存有限。

3、此外,数据流的特点是其变异性。传统机器学习假设在代表性数据子集上训练的模型在未来仍将有效,因为未来数据将与过去相似。然而,数据流可能不可预测地变化,改变数据特征和决策边界。这种现象,被称为“概念漂移”,指的是目标变量的统计属性的变化,影响各种实际应用,并需要随时间对模型进行调整。例如,在金融行业,防欺诈模型本文档来自技高网...

【技术保护点】

1.一种用于分类不平衡流数据的新型主动学习方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的用于分类不平衡流数据的新型主动学习方法,其特征在于,S1所述知识库包括每个类别的单独窗口,表示为KB={W1,W2,…WC},其中C代表到目前为止识别的类别总数,在每个窗口中,数据样本存储为四元组:(x,Label,ω,ωca),其中x是数据样本,Label表示真实或预测的类别,如果未知则保持未定义,ω是分配给样本的权重。

3.根据权利要求1所述的用于分类不平衡流数据的新型主动学习方法,其特征在于,S2所述集成包括多个k最近邻k-NN分类器,集成内部的多样性由参数θ...

【技术特征摘要】

1.一种用于分类不平衡流数据的新型主动学习方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的用于分类不平衡流数据的新型主动学习方法,其特征在于,s1所述知识库包括每个类别的单独窗口,表示为kb={w1,w2,…wc},其中c代表到目前为止识别的类别总数,在每个窗口中,数据样本存储为四元组:(x,label,ω,ωca),其中x是数据样本,label表示真实或预测的类别,如果未知则保持未定义,ω是分配给样本的权重。

3.根据权利要求1所述的用于分类不平衡流数据的新型主动学习方法,其特征在于,s2所述集成包括多个k最近邻k-nn分类器,集成内部的...

【专利技术属性】
技术研发人员:乌丁·萨拉赫杨勤丽邵俊明
申请(专利权)人:电子科技大学长三角研究院湖州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1