The invention relates to the field of communication information security technology, in particular to a method for detecting a deceitful person in telecommunication fraud based on large data and machine learning. The method includes the following steps: acquiring the original telephone record sheet and screening out the fraudulent phone events; analyzing the called features and scenarios in the fraudulent phone events to obtain a multi-dimensional feature table and store it as pre-processing data; cleaning the pre-processing data to obtain the data to be converted; converting the data to training samples; generating classification using training samples. The data of telephone record sheet, which is called the object of analysis, is substituted into the classifier model for early warning. The invention establishes a classifier model on the basis of analyzing the characteristics and scenarios of calls, and carries out telecommunication fraud early warning for calls called as analysis objects, which has the advantages of accuracy and effectiveness.
【技术实现步骤摘要】
一种基于大数据和机器学习的电信诈骗上当人发现方法
本专利技术涉及通讯信息安全
,尤其涉及一种基于大数据和机器学习的电信诈骗上当人发现方法。
技术介绍
机器学习包括无监督学习和监督学习,其中随机森林是一种重要的基于Bagging(是一种用来提高学习算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数)的集成学习方法,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定,可以用来做分类、回归及聚类等问题,优点是:具有极高的准确率;由于随机性的引入,使得随机森林不容易过拟合,且具有很好的抗噪声能力;能够用来处理很高维的数据,并且不用做特征选择;随机森林算法既能够用来处理离散型数据,也能用来处理连续性数据,无须规范化;训练速度很快,可以得到变量重要性排序,容易实现并行化。但是随机森林算法也有缺点:当其中的决策树个数很多的时候,训练需要的时间空间较大;且可解释性较弱。随机森林的构建过程如下:从原始训练集中使用Bootstraping方法(指的就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布的新样本),随机有放回采样选出m个样本,共进行n_tree次采样,生成n_tree个训练集;对于n_tree个训练集,我们分别训练n_tree个决策树模型;对于单个决策树模型,假设训练样本特征的个数为n,那么每次分裂时根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂;每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝;将生成的多棵决 ...
【技术保护点】
1.一种基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,包括以下步骤:获取原始电话记录单,筛选出其中的诈骗电话事件;分析诈骗电话事件中被叫的特征和场景以得到多维度特征表,并作为预处理数据进行存储;对预处理数据进行清理,得到待转换数据;将待转换数据转换成训练样本;利用训练样本生成分类器模型;将被叫为分析对象的电话记录单数据代入分类器模型,进行预警。
【技术特征摘要】
1.一种基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,包括以下步骤:获取原始电话记录单,筛选出其中的诈骗电话事件;分析诈骗电话事件中被叫的特征和场景以得到多维度特征表,并作为预处理数据进行存储;对预处理数据进行清理,得到待转换数据;将待转换数据转换成训练样本;利用训练样本生成分类器模型;将被叫为分析对象的电话记录单数据代入分类器模型,进行预警。2.根据权利要求1所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,采用填写空缺值或者光滑噪声数据或者识别删除离群点或者删除重复值或者数据降维中的至少一种方法对预处理数据进行清理。3.根据权利要求2所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,采用建立数据仓库,并通过平滑聚集或者数据概化或者数据规范化中的至少一种方法将待转换数据转换成训练样本。4.根据权利要求3所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,利用训练样本生成分类器模型的步骤具体包括以下步骤:预设数值m,m被用来决定当在一个节点上做决定时,会使用到多少个变量;从N个训练样本中以可重复取样的方式,取样N次,形成一组训练集;对于每一个节点,随机选择m个基于此点上的变量,根据这m个变量,计算其最佳的分割方式,以得到分类器模型;其中,m为小于变量数目的预设数值,N为训练样本的...
【专利技术属性】
技术研发人员:高勇,孙志猛,刘善武,李进,孟繁瑞,赵龙斌,蒋维,郝振江,夏光升,
申请(专利权)人:山东省通信管理局,国家计算机网络与信息安全管理中心山东分中心,天津市国瑞数码安全系统股份有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。