用于防控风险的属性确定方法、装置及服务器制造方法及图纸

技术编号:16970368 阅读:24 留言:0更新日期:2018-01-07 07:00
本申请提供一种用于防控风险的属性确定方法、装置及服务器,该方法包括:获取样本数据,所述样本数据对应设定数量的属性;计算所述样本数据的每一个属性对应的显著性指标值;基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。本申请的技术方案可以提高识别出样本数据需要的用于防控风险的属性的效率。

【技术实现步骤摘要】
用于防控风险的属性确定方法、装置及服务器
本申请涉及网络安全
,尤其涉及一种用于防控风险的属性确定方法、装置及服务器。
技术介绍
在安全业务防控中,非常重要的一个环节是针对突发风险,能够快速识别出被监控的数据业务的风险属性,并配置相应的风险防控模型。现有技术中,数据业务根据其自身的业务需求被设定为多个属性,通过对每个数据业务的黑样本和白样本的抽样,对黑样本和白样本分布的直方图进行分析判断,如果其中几个属性上出现的黑样本特别集中,并且白样本分布很少,则认为该几个属性为数据业务的显著属性,然后,将显著属性的特征组合成防控规则。对于显著属性的识别,当数据业务具有十几个属性的时候识别效率尚可行,当数据业务有几十个几百个指标时,对于显著属性的识别效率就会显得很低。
技术实现思路
有鉴于此,本申请提供一种新的技术方案,可以解决现有技术中识别显著属性的效率低的技术问题。为实现上述目的,本申请提供技术方案如下:根据本申请的第一方面,提出了一种用于防控风险的属性确定方法,包括:获取样本数据,所述样本数据对应设定数量的属性;计算所述样本数据的每一个属性对应的显著性指标值;基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。根据本申请的第二方面,提出了一种用于防控风险的属性确定装置,包括:样本数据获取单元,用于获取样本数据,所述样本数据对应设定数量的属性;指标计算单元,用于计算所述样本数据获取单元获取到的所述样本数据的每一个属性对应的显著性指标值;显著属性确定单元,用于基于所述指标计算单元计算得到的所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。根据本申请的第三方面,提出了一种服务器,所述服务器包括:存储器和处理器,所述存储器用于存储所述处理器可执行指令;其中,所述处理器,用于获取样本数据,所述样本数据对应设定数量的属性;计算所述样本数据的每一个属性对应的显著性指标值;基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。由以上技术方案可见,本申请基于样本数据的每一个属性对应的显著性指标值,从样本数据全部的属性中找出用于防控风险的属性,由于显著性指标值可以通过信息增益、信息增益率、逆基尼指数来综合判断,从而可以提高识别出样本数据需要的用于防控风险的属性的效率。附图说明图1A示出了根据本专利技术示例性实施例一的用于防控风险的属性确定方法的场景示意图;图1B示出了根据本专利技术示例性实施例一的用于防控风险的属性的示意图;图2示出了根据本专利技术示例性实施例一的用于防控风险的属性确定方法的流程示意图;图3示出了根据本专利技术示例性实施例二的用于防控风险的属性确定方法的流程示意图;图4示出了根据本专利技术示例性实施例三的用于防控风险的属性确定方法的流程示意图;图5示出了根据本专利技术示例性实施例四的用于防控风险的属性确定方法的流程示意图;图6示出了根据本专利技术示例性实施例一的用于防控风险的属性确定装置的结构示意图;图7示出了根据本专利技术的一示例性实施例的服务器的结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。图1A示出了根据本专利技术示例性实施例一的用于防控风险的属性确定方法的场景示意图,图1B示出了根据本专利技术示例性实施例一的用于防控风险的属性的示意图;如图1A所示,以银行业务的样本数据为例进行说明,黑白样本抽样得到样本数据,样本数据的属性包括:银行客户的生存时间变量、性别、年龄区间、客户的邮政区号是否改变、是否有定期账户、拥有的活期账户数量、客户拥有的业务数量、客户拥有的产品数量、是否购买理财产品、是否有消费贷款、账户余额的下降、是否有定期销户、客户主动进行的活期交易次数、最后一笔交易间隔时间、服务时间长度、是否投诉、与银行接触的主要渠道等17个属性,此时本申请中的设定数量为17。例如,样本数据所在的训练数据集中包含90个样本数据,该90个样本数据中包含30个流失样本数据(本申请中的黑样本),60个未流失样本数据(本申请中的白样本)。设定数量的属性中的部分属性如表1所示:表1由上述表1可知,每一个属性可以包含至少一个类别,类别的分区可以根据样本数据对应的数据业务而定,本申请对每一个属性所包含的类别不做限制。根据90个样本数据每一个属性的分布确定该每一个属性对应的显著性指标值,显著性指标值可以为信息增益、信息增益率、逆基尼指数等中的任意一个、或者两个组合、或者三个组合,将每一个显著性指标值与对应的预设阈进行比较,例如,将信息增益与第一预设阈值进行比较,将信息增益率与第二预设阈值进行比较,将逆基尼指数与第三预设阈值进行比较,得到大于各自对应的预设阈值的显著性指标值,表2中所示的黑体下划线标注的显著性指标值符合设定条件的属性。表2属性信息增益信息增益率基尼指数逆基尼指数生存时间变量0.83650.61030.02190.9781性别0.00020.00020.44430.5557年龄区间0.05880.03140.40850.5915客户的邮政区号改变0.00030.00050.44430.5557是否有定期账户0.04250.04480.41790.5821拥有的活期账户数量0.18550.11860.33380.6662客户拥有的业务数量0.40170.25930.20930.7907客户拥有的产品数量0.28370.15130.28410.7159是否购买理财产品0.01880.01920.43310.5669是否有消费贷款0.16270.16650.35560.6444账户余额的下降0.02270.02760.43000.5700是否有定期销户0.06800.10470.40000.6000客户主动进行的活期交易次数0.22710.18670.31560.6844最后一笔交易间隔时间0.49550.31120.18710.8129服务时间长度0.78490.40540.04260.9574是否投诉0.04660.06660.41420.5858与银行接触的主要渠道0.00510.00260.44130.5587通过上述表2可知,同时满足预设条件的属性包括:生存时间变量、客户拥有的业务数量、客户拥有的产品数量、客户主动进行的活本文档来自技高网...
用于防控风险的属性确定方法、装置及服务器

【技术保护点】
一种用于防控风险的属性确定方法,其特征在于,所述方法包括:获取样本数据,所述样本数据对应设定数量的属性;计算所述样本数据的每一个属性对应的显著性指标值;基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。

【技术特征摘要】
1.一种用于防控风险的属性确定方法,其特征在于,所述方法包括:获取样本数据,所述样本数据对应设定数量的属性;计算所述样本数据的每一个属性对应的显著性指标值;基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。2.根据权利要求1所述的方法,其特征在于,所述显著性指标值为信息增益,所述计算所述样本数据的每一个属性对应的显著性指标值,包括:基于所述样本数据的每一个属性对应的信息熵以及所述每一个属性对应的条件熵,确定所述每一个属性对应的增益信息。3.根据权利要求1所述的方法,其特征在于,所述显著性指标值为信息增益率,所述计算所述样本数据的每一个属性对应的显著性指标值,包括:确定所述样本数据的每一个属性对应的信息增益;确定所述每一个属性对应的内在信息;根据所述每一个属性对应的信息增益和所述每一个属性对应的内在信息确定所述每一个属性对应的信息增益率。4.根据权利要求1所述的方法,其特征在于,所述显著性指标值为逆基尼增益,所述计算所述样本数据的每一个属性对应的显著性指标值,包括:确定所述样本数据的每一个属性对应的类别在所述样本数据中出现的相对频率;根据所述每一个属性对应的类别在所述样本数据中出现的相对频率确定所述每一个属性对应的基尼指数;根据所述每一个属性对应的基尼指数以及所述每一个属性对应的类别的记录数确定所述每一个属性对应的基尼增益;根据所述基尼增益确定所述样本数据的每一个属性对应的逆基尼增益。5.根据权利要求1所述的方法,其特征在于,所述基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性,包括:从所述设定数量的属性中确定所述显著性指标值大于预设阈值的属性;根据所述显著性指标值大于所述预设阈值的属性确定用于防控风险的属性。6.根据权利要求5所述的方法,其特征在于,所述显著性指标值包括信息增益、信息增益率和逆基尼增益,所述从所述设定数量的属性中确定所述显著性指标值大于预设阈值的属性,包括:从所述设定数量的属性中确定所述信息增益大于第一预设...

【专利技术属性】
技术研发人员:陈晓锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1