在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法技术

技术编号：24209629 阅读：24 留言：0更新日期：2020-05-20 16:15

在不平衡数据集上进行快速特征学习的代价敏感的动态聚类方法，首先将不平衡数据的训练集全体送入前馈神经网络中，得到输出层之前的样本表征；设定聚类的类别数目K，将属于数据集大类的样本表征取出，用K‑Means方法将这批样本聚为K类；利用得到的这批样本的聚类标签作为训练的类别标签，计算代价敏感系数下的神经网络损失，利用反向传播训练神经网络；迭代计算下一批样本表征，并设置K‑Means的初始化标签为上一轮大类样本的K‑Means标签，继续训练过程直到收敛。能够较好地解决不平衡数据集训练中出现的模型偏置情况，在大类和小类的分类结果上均表现良好，用于金融数据中不平衡数据的分类学习。

A cost sensitive dynamic clustering method for fast feature learning on unbalanced data

全部详细技术资料下载

【技术实现步骤摘要】
在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法
本专利技术属于金融交易风险控制领域，针对金融交易风险控制中欺诈案例相比正常案例非常稀少导致的不平衡机器学习等问题，提出了在不平衡数据上一种快速特征学习的代价敏感的动态聚类方法。
技术介绍
随着传统金融互联网化以及互联网金融的快速发展，网络黑色产业链以集团化、产业化的趋势迅速发展。为抵御黑色产业链的盗卡、伪卡、薅羊毛、套现、非法集资等行为，金融行业结合大数据平台和业务人员的专家经验，构建金融业务中央风控系统。然而，黑色产业链攻击多变、拥有大量的代理IP、虚拟号码，基于规则的风控系统不能灵活地防御攻击行为。因此，研究基于机器学习的智能风控系统是十分必要的。在智能风控系统中，一个核心的部分是基于监督学习的二分类问题，即根据每一笔交易行为的若干维特征，判断该笔交易是否欺诈。然而，实际中的欺诈行为仅为正常交易行为的千分之一甚至万分之一，数据集存在严重的不平衡，影响了机器学习的效果，导致系统判断欺诈行为的准确率和召回率偏低。针对数据集不平衡的问题，很多研究者提出了不同的不平衡学习算法，众多的不平衡学习算法根据处理方式不同划分为不同的类别。在二分类的不平衡学习研究中，提出在输入端解决数据集不平衡问题的是基于采样的方法。基于采样的方法又可以分为针对小类样本的过采样方法和针对大类样本的下采样方法。基于采样的方法优点是操作简单，时间复杂度小，并且因为采样与模型无关，可以和各种模型集成使用。该方法的局限性在于，过采样方法使得模型容易对小类样本过拟合，泛化能力差...

【技术保护点】
1.在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法，包括下列步骤：/n1)设定基准的前馈神经网络；/n准备好二分类的不平衡数据集，训练集样本有N个，每个样本的特征维度是d维；构建基准的前馈神经网络，包含三层：输入层、隐藏层和输出层，每一层的神经元个数分别为d、2d和1；神经网络中间的参数分别记为W

【技术特征摘要】
1.在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法，包括下列步骤：
1)设定基准的前馈神经网络；
准备好二分类的不平衡数据集，训练集样本有N个，每个样本的特征维度是d维；构建基准的前馈神经网络，包含三层：输入层、隐藏层和输出层，每一层的神经元个数分别为d、2d和1；神经网络中间的参数分别记为W0和W1，隐藏层采用的激活函数为RELU，形式为f(x)＝max(x,0)，输出层采用Sigmoid函数，形式为f(x)＝1/1+e-x；记输入的样本特征为x，隐藏层的表达为h，则h＝RELU(W0*x)，输出层的表达为o，则o＝Sigmoid(W1*h)；
2)重新标记大类的样本标签；
二分类的不平衡数据集中，占据数据集比例较大的类别称为负类，比例较小的类别称为正类；记N个训练集样本中负类的样本为M个，则由负类样本列向量构成的负类样本矩阵为XM＝{x1,x2,…,xM}，获取该M个负类样本的隐藏层输出HM＝{h1,h2,…,hM}；
设定HM的聚类的类别数目为K，将基准的前馈神经网络输出层改为K+1类的Softmax，形式为获取M个样本对应的类别标签labels＝{li|li＝argmaxi{W1*hi}}，其中argmax返回的是向量中最大值的下标；
如下运行类K-Means算法：
1.若第一次聚类，则随机选择K个样本的隐层特征作为K个类别的...

【专利技术属性】
技术研发人员：宋明黎，郑铜亚，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人