一种基于改进的主动学习技术的电信欺诈分类检测方法技术

技术编号:20622418 阅读:29 留言:0更新日期:2019-03-20 14:21
本发明专利技术公开了一种基于改进的主动学习技术的电信欺诈分类检测方法,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。抽取数量为X的数据划分训练集和测试集。从训练集中抽取样本作为初始训练集,其余为未标记样本。若当前训练集中正类与负类样本数量的比值不小于阈值e,训练有监督分类器f并构造强组合分类器F;将未标记样本逐个放入有监督分类器f中进行类别评分,得到类别评分结果,输入主动学习采样算法,得到信息量大小的评分。选取信息量最大的前D个进行标注,并加入训练集中;当前训练集样本数量大于等于X1,或者迭代次数大于等于C时结束,输出训练好的分类器f。本发明专利技术具有较强的稳定性和鲁棒性,实现较高的分类和检测效率。

A Classification and Detection Method of Telecommunication Fraud Based on Improved Active Learning Technology

The invention discloses a classification and detection method of telecommunication fraud based on improved active learning technology, which relates to a classification and detection method of telecommunication fraud based on improved active learning technology. The data with the number of X is extracted to divide the training set and the test set. Samples are extracted from the training set as the initial training set, and the rest are unlabeled samples. If the ratio of positive and negative samples in the current training set is not less than the threshold e, supervised classifier f is trained and strong combination classifier F is constructed. Unmarked samples are put into supervised classifier f one by one to grade the classes, and the result of the classification score is obtained. The active learning sampling algorithm is input to get the score of the information quantity. The first D with the largest amount of information is selected for labeling and added to the training set. When the number of samples in the current training set is greater than or equal to X1, or the number of iterations is greater than or equal to C, the trained classifier f is output. The invention has strong stability and robustness, and achieves high classification and detection efficiency.

【技术实现步骤摘要】
一种基于改进的主动学习技术的电信欺诈分类检测方法
本专利技术属于数据挖掘与机器学习和商务智能等领域,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。
技术介绍
在实际应用中,不同类别的数据在数量上可能会有很大的差异。例如,在电信欺诈检测领域,大多数通话记录来自正常用户,只有一小部分通话记录来自欺诈者。然而,即使欺诈电话的数量较少,也会给公共通信资源和个人财产带来巨大损失。根据美国通信欺诈控制协会(CFCA)发布了一份关于2015年全球电信诈骗损失的调查报告,其中显示全球电信欺诈损失预计年均将近400亿美元,约占电信总收入的2%。近年来,电信欺诈检测引起了许多工业界和学术界研究人员的极大兴趣,这不仅因为其潜在的巨大经济损失,而且还因异常的特征和行为模式难以捕捉。目前,有监督和无监督学习技术已被应用于这个问题。但是,大多数经典学习算法都假设数据类的分布是平衡的。因此,当这些算法应用于非常不平衡的数据集时,它们通常无法达到预期的效果。在这种情况下,如何有效地选择训练样本以取得良好的效果被视为一项至关重要的任务。主动学习(ActiveLearning)是一组特殊的机器学习方法,旨在通过从未标记的数据集中主动选择训练样本来提高学习性能。在主动学习中,在信息最丰富的样本上递增和迭代训练的学习算法通常会导致更高的准确性,并且优于随机选择训练样本的传统算法。
技术实现思路
本专利技术考虑到传统机器学习方法在数据类别不平衡情况下的分类难度和挑战,同时鉴于样本量较大,正类样本也较少的特点,提出了一种基于改进的主动学习技术的电信欺诈分类检测方法。具体步骤如下:步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集。训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1-A%)*X;步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本。人工标记的样本数量为A%*B%*X;包括:被标记为诈骗的电话记录,视为正类样本;被标记为正常电话记录,视为负类样本。未标记样本数量为A%*(1-B%)*X步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入。处理转换包括:特征归一化、连续数值离散化、指数/log变换、独热编码等;步骤四、初始化主动学习算法的迭代参数;包括:设置最大迭代步数C、每次迭代步长D以及训练集最大样本数量X1。步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;当前训练集初始值选用初始训练集;步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;强组合分类器F的投票结果作为样本的潜在类别分布。步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分。步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分。第j个未标记样本的评分MISj,具体计算公式如下:x*表示的是当前未标记样本集合中信息量最大的数据样本集合,Pθ(yi|xj)表示强组合分类器F中的一个假设所预测的实例xj的类概率,Pes(yi|xj)表示强组合分类器F最终预测的xj的类概率大小,N代表强组合分类器F中的分类器个数。θ∈Θ代表一个假设所使用的参数集合,I(xj)是用来测量一个样本是否满足信息熵最大的指示器函数,取值为1或0;P(yi|xj)由用于欺诈检测的有监督分类器f预测的xj的类概率分布。如果第j个未标记样本根据公式获得分数等于x*,则I(xj)值为1,否则为0。MISj反映了第j个未标记样本被误分情况以及信息量大小的综合研判。步骤九、将所有评分值由大至小排序,选取信息量最大的前D个未标记样本进行标注,并加入训练集中;步骤十、判断当前训练集样本数量是否大于等于X1,或者迭代次数是否大于等于C,如果是,则主动学习采样算法停止,输出分类器f,进入步骤十一;否则,未标记样本数量减少D个样本,迭代次数增计一次,返回步骤五。步骤十一、使用训练好的分类器f在测试集上进行分类效果测试,对电信欺诈的呼叫数据进行分类。本专利技术的优势在于:1)、一种基于改进的主动学习技术的电信欺诈分类检测方法,将主动学习应用于大规模和不平衡的数据集的分类问题中,为解决如电信欺诈检测等此类问题提供了一种新的方法。2)、一种基于改进的主动学习技术的电信欺诈分类检测方法,通过迭代的方式,结合重采样技术,使得分类结果具有较强的稳定性和鲁棒性,可以实现较高的分类和检测效率。附图说明图1为本专利技术一种基于改进的主动学习技术的电信欺诈分类检测方法的原理图;图2为本专利技术一种基于改进的主动学习技术的电信欺诈分类检测方法流程图。具体实施方式下面将结合附图和实例对本专利技术作进一步的详细说明。目前,大规模不平衡数据集的处理和计算任务已引起业界和学术界的高度重视,同时也是电信、金融等领域欺诈检测问题面临的重点和难点。在大数据时代,计算资源和时间成本的限制使得技术人员很难将相关算法和模型直接运行在原始数据集合上,因此,如何从大规模数据集中提取出更准确反映数据分布和特点的训练集成为了亟待解决的问题。主动学习算法为该问题提供了一种迭代的思路,每一次迭代会依据模型评分和样本信息量逐步增加初始训练集合。但是,在面临极不平衡数据集时,传统的主动学习方法也存在一些弊端。为此,本专利技术提出了一种基于改进的主动学习技术的电信欺诈分类检测方法,以解决大规模不平衡的学习问题。该实验是在电信欺诈检测的真实数据上进行,实验结果表明,与传统的方法相比,本专利技术表现出更稳定和更好的性能。本专利技术提出了一种新的抽样方法,它综合了分类器错分的概率和样本的不确定性度量。同时,与重采样方法相配合,以保持训练数据集的平衡。最后,构建了一个全面的主动学习框架,在每次迭代中,如果现有训练集是不平衡的,将采用重采样的方法来平衡它。之后,通过逐次有目的性地选择未标记数据集的一小部分来标记和扩充初始训练集,以提高分类器的学习性能。如图1和图2所示,具体步骤如下:步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集。本实施例中收集电信网中一周的呼叫详细数据(CallDetailRecord,简称CDR数据),从中随机等概率抽取一定数量X=100000数据作为实验准备,并按照训练集比例A%=15%,随机等概率划分出训练集和测试集;则训练集的样本总量为15000;测试集的样本总量为85000;步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本。本实施例中选取B%=10%,即1500个人工标记的样本数量;其中被标记为诈骗的电话记录,视为正类样本;被标记为正常电话记录,视为负类样本。未标记样本数量为13500;步骤三、对初始训练集样本、未标记样本以及测试集本文档来自技高网...

【技术保护点】
1.一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,具体步骤如下:步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集;训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1‑A%)*X;步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本;步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入;步骤四、初始化主动学习算法的迭代参数;步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;当前训练集初始值选用初始训练集;步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;强组合分类器F的投票结果作为样本的潜在类别分布;步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分;步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分;第j个未标记样本的评分MISj,具体计算公式如下:...

【技术特征摘要】
1.一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,具体步骤如下:步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集;训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1-A%)*X;步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本;步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入;步骤四、初始化主动学习算法的迭代参数;步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;当前训练集初始值选用初始训练集;步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;强组合分类器F的投票结果作为样本的潜在类别分布;步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分;步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分;第j个未标记样本的评分MISj,具体计算公式如下:x*表示的是当前未标记样本集合中信息量最大的数据样本集合,Pθ(yi|xj)表示强组合分类器F中的一个假设所预测的实例xj的类概率,Pes(yi|xj)表...

【专利技术属性】
技术研发人员:万辛刘冠男郭佳林浩安茂波李鹏高圣翔黄远沈亮
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1