当前位置: 首页 > 专利查询>浙江大学专利>正文

在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法技术

技术编号:24209629 阅读:24 留言:0更新日期:2020-05-20 16:15
在不平衡数据集上进行快速特征学习的代价敏感的动态聚类方法,首先将不平衡数据的训练集全体送入前馈神经网络中,得到输出层之前的样本表征;设定聚类的类别数目K,将属于数据集大类的样本表征取出,用K‑Means方法将这批样本聚为K类;利用得到的这批样本的聚类标签作为训练的类别标签,计算代价敏感系数下的神经网络损失,利用反向传播训练神经网络;迭代计算下一批样本表征,并设置K‑Means的初始化标签为上一轮大类样本的K‑Means标签,继续训练过程直到收敛。能够较好地解决不平衡数据集训练中出现的模型偏置情况,在大类和小类的分类结果上均表现良好,用于金融数据中不平衡数据的分类学习。

A cost sensitive dynamic clustering method for fast feature learning on unbalanced data

【技术实现步骤摘要】
在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法
本专利技术属于金融交易风险控制领域,针对金融交易风险控制中欺诈案例相比正常案例非常稀少导致的不平衡机器学习等问题,提出了在不平衡数据上一种快速特征学习的代价敏感的动态聚类方法。
技术介绍
随着传统金融互联网化以及互联网金融的快速发展,网络黑色产业链以集团化、产业化的趋势迅速发展。为抵御黑色产业链的盗卡、伪卡、薅羊毛、套现、非法集资等行为,金融行业结合大数据平台和业务人员的专家经验,构建金融业务中央风控系统。然而,黑色产业链攻击多变、拥有大量的代理IP、虚拟号码,基于规则的风控系统不能灵活地防御攻击行为。因此,研究基于机器学习的智能风控系统是十分必要的。在智能风控系统中,一个核心的部分是基于监督学习的二分类问题,即根据每一笔交易行为的若干维特征,判断该笔交易是否欺诈。然而,实际中的欺诈行为仅为正常交易行为的千分之一甚至万分之一,数据集存在严重的不平衡,影响了机器学习的效果,导致系统判断欺诈行为的准确率和召回率偏低。针对数据集不平衡的问题,很多研究者提出了不同的不平衡学习算法,众多的不平衡学习算法根据处理方式不同划分为不同的类别。在二分类的不平衡学习研究中,提出在输入端解决数据集不平衡问题的是基于采样的方法。基于采样的方法又可以分为针对小类样本的过采样方法和针对大类样本的下采样方法。基于采样的方法优点是操作简单,时间复杂度小,并且因为采样与模型无关,可以和各种模型集成使用。该方法的局限性在于,过采样方法使得模型容易对小类样本过拟合,泛化能力差;下采样方法会引入随机噪声,使得模型训练不鲁棒,损失训练集中的信息。在二分类的不平衡学习研究中,提出在损失函数端解决数据集不平衡问题的是代价敏感方法。代价敏感方法对误分类的损失施加不同的权重,通常对小类样本分类损失施加较大的权重,而对大类样本损失施加较小的权重,从而解决模型训练时小类的损失过小导致学习不充分的问题。代价敏感方法的缺点在于需要一个难以定义的代价矩阵,对不同的损失指定不同的系数。在二分类的不平衡学习研究中,还有一类方法,提出在特征空间为样本学习更好的数据表征。基于数据表征的方法通常采用样本对的方式训练表征,使得同类别表征相近,不同类别表征相离,该方法的效果较好,性能鲁棒。但是,该方法的时间复杂度通常是样本数量N的平方,训练比较困难。
技术实现思路
本专利技术要克服现有技术的不足,在减少时间复杂度的情况下,提供一种代价敏感的动态聚类方法,可以实现在不平衡数据上的快速特征学习。在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法,包括下列步骤:1)设定基准的前馈神经网络;准备好二分类的不平衡数据集,训练集样本有N个,每个样本的特征维度是d维。构建基准的前馈神经网络,包含三层:输入层、隐藏层和输出层,每一层的神经元个数分别为d、2d和1。神经网络中间的参数分别记为W0和W1,隐藏层采用的激活函数为RELU,形式为f(x)=max(x,0),输出层采用Sigmoid函数,形式为f(x)=1/1+e-x。记输入的样本特征为x,隐藏层的表达为h,则h=RELU(W0*x),输出层的表达为o,则o=Sigmoid(W1*h)。2)重新标记大类的样本标签通常,二分类的不平衡数据集中,占据数据集比例较大的类别称为负类,比例较小的类别称为正类。记N个训练集样本中负类的样本为M个,则由负类样本列向量构成的负类样本矩阵为XM={x1,x2,…,xM},获取该M个负类样本的隐藏层输出HM={h1,h2,…,hM}。设定HM的聚类的类别数目为K,将基准的前馈神经网络输出层改为K+1类的Softmax,形式为获取M个样本对应的类别标签labels={li|li=argmaxi{W1*hi}},其中argmax返回的是向量中最大值的下标。如下运行类K-Means算法:1.若第一次聚类,则随机选择K个样本的隐层特征作为K个类别的中心点:Centers={c1,c2,…,ck};否则,按照上一轮的标签计算新的中心点:Centers={ci|ci=AVG({hj|lj==i})},其中AVG是取若干个向量的均值。2.更新M个样本的所属类别:label(hi)=argminj||cj-hi||,其中argmin返回的是向量中最小值的下标。若到达最大迭代次数,或者样本所属类别不再改变,则跳出,否则继续执行1。3)训练重新定义的神经网络按照2)中重新定义前馈神经网络之后,获取到M个负类样本对应的类别标签labelsM,这些标签属于K个类别。将负类样本的标签和原有正类样本的标签合并,得到N个训练集样本对应的重新定义后的标签labelsN,这些标签属于K+1个类别。此时,训练集样本特征矩阵为XN,对应标签为labelsN,代价敏感的损失函数定义为其中pi是对应样本xi的类别所属概率,cpos和1-cpos分别是正类样本和负类样本的代价敏感系数,记负类样本个数为M,训练集样本总个数为N,则cpos=M/N。设定训练优化器为AdamOptimizer,学习率为0.001,批大小为8,按照minibatch的形式不断更新神经网络的参数直到整个训练集数据训练完一轮。若到达最大迭代次数,或者损失低于最低值,则跳出;否则继续执行2)中的类K-Means算法,得到N个样本的新标签labelN。本专利技术首先将不平衡数据的训练集全体送入前馈神经网络中,得到输出层之前的样本表征;设定聚类的类别数目K,将属于数据集大类的样本表征取出,用K-Means方法将这批样本聚为K类;利用得到的这批样本的聚类标签作为训练的类别标签,计算代价敏感系数下的神经网络损失,利用反向传播训练神经网络;迭代计算下一批样本表征,并设置K-Means的初始化标签为上一轮大类样本的K-Means标签,继续训练过程直到收敛。能够较好地解决不平衡数据集训练中出现的模型偏置情况,在大类和小类的分类结果上均表现良好,用于金融数据中不平衡数据的分类学习。本专利技术的方法是一种在不平衡数据上代价敏感的动态聚类方法,用于解决不平衡数据上快速进行特征学习的问题。针对数据表征方法中时间复杂度过高的问题,本专利技术提出了用K-Means方法对大类样本的隐式表征进行聚类的方法,以较小的复杂度实现了样本对之间特征学习的效果。对于损失函数的不平衡问题,本专利技术采用了易于计算的代价敏感系数,使得模型的学习更为平稳鲁棒。本专利技术具有的有益的效果是:可以大幅减少基于数据表征方法的训练时间,利用代价敏感的动态聚类方法,快速学习有效的数据表征。与传统的不平衡学习方法相比,该方法可以学习不平衡数据的有效表征,同时计算类别均衡的损失函数,训练时间复杂度小。附图说明图1是本专利技术方法的流程图。具体实施方式一种在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法,包括下列步骤:1)设定基准的前馈神经网络;准备好二分类的不平衡数据集,训练集样本有N个,每个样本的特本文档来自技高网
...

【技术保护点】
1.在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法,包括下列步骤:/n1)设定基准的前馈神经网络;/n准备好二分类的不平衡数据集,训练集样本有N个,每个样本的特征维度是d维;构建基准的前馈神经网络,包含三层:输入层、隐藏层和输出层,每一层的神经元个数分别为d、2d和1;神经网络中间的参数分别记为W

【技术特征摘要】
1.在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法,包括下列步骤:
1)设定基准的前馈神经网络;
准备好二分类的不平衡数据集,训练集样本有N个,每个样本的特征维度是d维;构建基准的前馈神经网络,包含三层:输入层、隐藏层和输出层,每一层的神经元个数分别为d、2d和1;神经网络中间的参数分别记为W0和W1,隐藏层采用的激活函数为RELU,形式为f(x)=max(x,0),输出层采用Sigmoid函数,形式为f(x)=1/1+e-x;记输入的样本特征为x,隐藏层的表达为h,则h=RELU(W0*x),输出层的表达为o,则o=Sigmoid(W1*h);
2)重新标记大类的样本标签;
二分类的不平衡数据集中,占据数据集比例较大的类别称为负类,比例较小的类别称为正类;记N个训练集样本中负类的样本为M个,则由负类样本列向量构成的负类样本矩阵为XM={x1,x2,…,xM},获取该M个负类样本的隐藏层输出HM={h1,h2,…,hM};
设定HM的聚类的类别数目为K,将基准的前馈神经网络输出层改为K+1类的Softmax,形式为获取M个样本对应的类别标签labels={li|li=argmaxi{W1*hi}},其中argmax返回的是向量中最大值的下标;
如下运行类K-Means算法:
1.若第一次聚类,则随机选择K个样本的隐层特征作为K个类别的...

【专利技术属性】
技术研发人员:宋明黎郑铜亚
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1