The invention discloses a classification and detection method of telecommunication fraud based on improved active learning technology, which relates to a classification and detection method of telecommunication fraud based on improved active learning technology. The data with the number of X is extracted to divide the training set and the test set. Samples are extracted from the training set as the initial training set, and the rest are unlabeled samples. If the ratio of positive and negative samples in the current training set is not less than the threshold e, supervised classifier f is trained and strong combination classifier F is constructed. Unmarked samples are put into supervised classifier f one by one to grade the classes, and the result of the classification score is obtained. The active learning sampling algorithm is input to get the score of the information quantity. The first D with the largest amount of information is selected for labeling and added to the training set. When the number of samples in the current training set is greater than or equal to X1, or the number of iterations is greater than or equal to C, the trained classifier f is output. The invention has strong stability and robustness, and achieves high classification and detection efficiency.
【技术实现步骤摘要】
一种基于改进的主动学习技术的电信欺诈分类检测方法
本专利技术属于数据挖掘与机器学习和商务智能等领域,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。
技术介绍
在实际应用中,不同类别的数据在数量上可能会有很大的差异。例如,在电信欺诈检测领域,大多数通话记录来自正常用户,只有一小部分通话记录来自欺诈者。然而,即使欺诈电话的数量较少,也会给公共通信资源和个人财产带来巨大损失。根据美国通信欺诈控制协会(CFCA)发布了一份关于2015年全球电信诈骗损失的调查报告,其中显示全球电信欺诈损失预计年均将近400亿美元,约占电信总收入的2%。近年来,电信欺诈检测引起了许多工业界和学术界研究人员的极大兴趣,这不仅因为其潜在的巨大经济损失,而且还因异常的特征和行为模式难以捕捉。目前,有监督和无监督学习技术已被应用于这个问题。但是,大多数经典学习算法都假设数据类的分布是平衡的。因此,当这些算法应用于非常不平衡的数据集时,它们通常无法达到预期的效果。在这种情况下,如何有效地选择训练样本以取得良好的效果被视为一项至关重要的任务。主动学习(ActiveLearning)是一组特殊的机器学习方法,旨在通过从未标记的数据集中主动选择训练样本来提高学习性能。在主动学习中,在信息最丰富的样本上递增和迭代训练的学习算法通常会导致更高的准确性,并且优于随机选择训练样本的传统算法。
技术实现思路
本专利技术考虑到传统机器学习方法在数据类别不平衡情况下的分类难度和挑战,同时鉴于样本量较大,正类样本也较少的特点,提出了一种基于改进的主动学习技术的电信欺诈分类检测方法。具体步骤如下:步骤一、收集电信 ...
【技术保护点】
1.一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,具体步骤如下:步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集;训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1‑A%)*X;步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本;步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入;步骤四、初始化主动学习算法的迭代参数;步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;当前训练集初始值选用初始训练集;步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;强组合分类器F的投票结果作为样本的潜在类别分布;步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中 ...
【技术特征摘要】
1.一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,具体步骤如下:步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集;训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1-A%)*X;步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本;步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入;步骤四、初始化主动学习算法的迭代参数;步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;当前训练集初始值选用初始训练集;步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;强组合分类器F的投票结果作为样本的潜在类别分布;步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分;步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分;第j个未标记样本的评分MISj,具体计算公式如下:x*表示的是当前未标记样本集合中信息量最大的数据样本集合,Pθ(yi|xj)表示强组合分类器F中的一个假设所预测的实例xj的类概率,Pes(yi|xj)表...
【专利技术属性】
技术研发人员:万辛,刘冠男,郭佳,林浩,安茂波,李鹏,高圣翔,黄远,沈亮,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。