一种基于大数据和机器学习的电信诈骗上当人发现方法技术

技术编号:20546711 阅读:27 留言:0更新日期:2019-03-09 19:37
本发明专利技术涉及通讯信息安全技术领域,尤其涉及一种基于大数据和机器学习的电信诈骗上当人发现方法。该方法包括以下步骤:获取原始电话记录单,筛选出其中的诈骗电话事件;分析诈骗电话事件中被叫的特征和场景以得到多维度特征表,并作为预处理数据进行存储;对预处理数据进行清理,得到待转换数据;将待转换数据转换成训练样本;利用训练样本生成分类器模型;将被叫为分析对象的电话记录单数据代入分类器模型,进行预警。本发明专利技术在分析被叫的特征和场景的基础上建立分类器模型,对被叫为分析对象的电话进行电信诈骗预警,具有准确、有效的优点。

A Method of Detecting Telecom Fraud Dummies Based on Big Data and Machine Learning

The invention relates to the field of communication information security technology, in particular to a method for detecting a deceitful person in telecommunication fraud based on large data and machine learning. The method includes the following steps: acquiring the original telephone record sheet and screening out the fraudulent phone events; analyzing the called features and scenarios in the fraudulent phone events to obtain a multi-dimensional feature table and store it as pre-processing data; cleaning the pre-processing data to obtain the data to be converted; converting the data to training samples; generating classification using training samples. The data of telephone record sheet, which is called the object of analysis, is substituted into the classifier model for early warning. The invention establishes a classifier model on the basis of analyzing the characteristics and scenarios of calls, and carries out telecommunication fraud early warning for calls called as analysis objects, which has the advantages of accuracy and effectiveness.

【技术实现步骤摘要】
一种基于大数据和机器学习的电信诈骗上当人发现方法
本专利技术涉及通讯信息安全
,尤其涉及一种基于大数据和机器学习的电信诈骗上当人发现方法。
技术介绍
机器学习包括无监督学习和监督学习,其中随机森林是一种重要的基于Bagging(是一种用来提高学习算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数)的集成学习方法,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定,可以用来做分类、回归及聚类等问题,优点是:具有极高的准确率;由于随机性的引入,使得随机森林不容易过拟合,且具有很好的抗噪声能力;能够用来处理很高维的数据,并且不用做特征选择;随机森林算法既能够用来处理离散型数据,也能用来处理连续性数据,无须规范化;训练速度很快,可以得到变量重要性排序,容易实现并行化。但是随机森林算法也有缺点:当其中的决策树个数很多的时候,训练需要的时间空间较大;且可解释性较弱。随机森林的构建过程如下:从原始训练集中使用Bootstraping方法(指的就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布的新样本),随机有放回采样选出m个样本,共进行n_tree次采样,生成n_tree个训练集;对于n_tree个训练集,我们分别训练n_tree个决策树模型;对于单个决策树模型,假设训练样本特征的个数为n,那么每次分裂时根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂;每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝;将生成的多棵决策树组成随机森林。对于分类问题,按多棵树分类器投票决定最终分类结果;对于回归问题,由多棵树预测值的均值决定最终预测结果。目前已有一种基于大数据和机器学习的防范电信诈骗系统及方法,该方法是在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;也有一种诈骗电话号码的分析方法,其采用随机森林算法建立不同类型的诈骗电话检测模型,周期性地对诈骗电话号码分类模型进行离线的训练,然后在现网中进行准实时的检测判定,从大量话单信息中甄别出诈骗电话事件和号码;也有一种基于深度学习的电信诈骗识别与防御系统,将深度学习技术与国密算法相结合,采取来电监听与语音识别等技术,来识别诈骗电话。上述已有方法在电信诈骗识别与防范方面各有侧重,但以上方法均是针对诈骗方进行的识别和预防,对于潜在的被诈骗人方面没有预防措施,不能提前做到防止潜在被诈骗人上当受骗。因此,急需一种基于大数据和机器学习的电信诈骗上当人发现方法。
技术实现思路
本专利技术提供了一种基于大数据和机器学习的电信诈骗上当人发现方法,以便于使用随机森林算法与关联规则算法,在大数据平台上根据原始话单数据分析发现上当人,找出规律,挖掘潜在上当人。本专利技术提供了一种基于大数据和机器学习的电信诈骗上当人发现方法,包括以下步骤:获取原始电话记录单,筛选出其中的诈骗电话事件;分析诈骗电话事件中被叫的特征和场景以得到多维度特征表,并作为预处理数据进行存储;对预处理数据进行清理,得到待转换数据;将待转换数据转换成训练样本;利用训练样本生成分类器模型;将被叫为分析对象的电话记录单数据代入分类器模型,进行预警。进一步地,采用填写空缺值或者光滑噪声数据或者识别删除离群点或者删除重复值或者数据降维中的至少一种方法对预处理数据进行清理。进一步地,采用建立数据仓库,并通过平滑聚集或者数据概化或者数据规范化中的至少一种方法将待转换数据转换成训练样本。进一步地,利用训练样本生成分类器模型的步骤具体包括以下步骤:预设数值m,m被用来决定当在一个节点上做决定时,会使用到多少个变量;从N个训练样本中以可重复取样的方式,取样N次,形成一组训练集;对于每一个节点,随机选择m个基于此点上的变量,根据这m个变量,计算其最佳的分割方式,以得到分类器模型;其中,m为小于变量数目的预设数值,N为训练样本的个数。进一步地,利用训练样本生成分类器模型的方式为:在训练样本上执行分类器算法,生成分类器模型。进一步地,分类器算法为决策树算法。进一步地,分析诈骗电话事件中被叫的特征和场景的方式为记录被叫在预设时间段内的行为特征和行为场景以得到多维度特征表。进一步地,对预处理数据进行清理之前还包括步骤:对多维度特征表采用随机森林算法进行无监督学习聚类和异常点检测,得到预处理数据。进一步地,将被叫为分析对象的电话记录单数据代入分类器模型,进行预警的步骤具体包括以下步骤:将被叫为分析对象的电话记录单数据代入分类器模型,得到潜在上当人信息;通过人工监听验证分类器模型,并进行预警。进一步地,进行预警之前还包括步骤:通过人工监听验证分类器模型,得到完善后的分类器模型;将潜在上当人的电话记录单数据代入完善后的分类器模型,并进行预警。本专利技术提供的基于大数据和机器学习的电信诈骗上当人发现方法,与现有技术相比具有以下进步:通过对原始话单数据的分析发现上当人,并根据上当人被叫时的特征和场景建立模型,通过将被叫为分析对象的电话记录单数据代入模型中进行预警,能够有效的防止被叫的潜在上当人被电信诈骗的问题,具有方法简单、防诈骗效率高的优点。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例中一种基于大数据和机器学习的电信诈骗上当人发现方法的步骤图;图2为本专利技术实施例中步骤S6具体实施时的步骤图;图3为本专利技术实施例中步骤S7具体实施时的步骤图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。本实施例提供了一种基于大数据和机器学习的电信诈骗上当人发现方法。如图1,本实施例的基于大数据和机器学习的电信诈骗上当人发现方法,包括以下步骤:S1、获取原始电话记录单,筛选出其中的诈骗电话事件;S2、分析诈骗电话事件中被叫的特征和场景以得到多维度特征表,并作为预处理数据进行存储;S4、对预处理数据进行清理,得到待转换数据;S5、将待转换数据转换成训练样本;S6、利用训练样本生成分类器模型;S7、将被叫为分本文档来自技高网
...

【技术保护点】
1.一种基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,包括以下步骤:获取原始电话记录单,筛选出其中的诈骗电话事件;分析诈骗电话事件中被叫的特征和场景以得到多维度特征表,并作为预处理数据进行存储;对预处理数据进行清理,得到待转换数据;将待转换数据转换成训练样本;利用训练样本生成分类器模型;将被叫为分析对象的电话记录单数据代入分类器模型,进行预警。

【技术特征摘要】
1.一种基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,包括以下步骤:获取原始电话记录单,筛选出其中的诈骗电话事件;分析诈骗电话事件中被叫的特征和场景以得到多维度特征表,并作为预处理数据进行存储;对预处理数据进行清理,得到待转换数据;将待转换数据转换成训练样本;利用训练样本生成分类器模型;将被叫为分析对象的电话记录单数据代入分类器模型,进行预警。2.根据权利要求1所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,采用填写空缺值或者光滑噪声数据或者识别删除离群点或者删除重复值或者数据降维中的至少一种方法对预处理数据进行清理。3.根据权利要求2所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,采用建立数据仓库,并通过平滑聚集或者数据概化或者数据规范化中的至少一种方法将待转换数据转换成训练样本。4.根据权利要求3所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,利用训练样本生成分类器模型的步骤具体包括以下步骤:预设数值m,m被用来决定当在一个节点上做决定时,会使用到多少个变量;从N个训练样本中以可重复取样的方式,取样N次,形成一组训练集;对于每一个节点,随机选择m个基于此点上的变量,根据这m个变量,计算其最佳的分割方式,以得到分类器模型;其中,m为小于变量数目的预设数值,N为训练样本的...

【专利技术属性】
技术研发人员:高勇孙志猛刘善武李进孟繁瑞赵龙斌蒋维郝振江夏光升
申请(专利权)人:山东省通信管理局国家计算机网络与信息安全管理中心山东分中心天津市国瑞数码安全系统股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1