用于执行隐案挖掘的方法和系统技术方案

技术编号:23316150 阅读:20 留言:0更新日期:2020-02-11 18:11
本申请公开了一种用于执行隐案挖掘的方法,包括:获取样本集,所述样本集包括已知黑样本和未知样本,所述已知黑样本是已经确定为风险案件的样本;获取变量池,所述变量池包括多个变量;使用所述多个变量的每一种组合,对所述样本集执行聚类算法来得到多个簇;计算所述多个簇中的每个簇中的已知黑样本的浓度;基于所述多个簇中的每个簇的已知黑样本的浓度,选择一个或多个候选簇;以及将所述一个或多个候选簇中的未知样本标识为潜在隐案。本申请还涉及相应的系统和计算机可读存储介质。本申请能够提高隐案挖掘的覆盖率、准确度和适用性。

Methods and systems for hidden case mining

【技术实现步骤摘要】
用于执行隐案挖掘的方法和系统
本说明书的一个或多个实施例涉及用于执行隐案挖掘的方法和系统。
技术介绍
随着在线交易系统或支付系统的普及,与之相关联的安全问题也变得普遍,对风险案件的识别和防控也变得日益重要。风险案件包括例如盗号、欺诈、非法套现等。在目前的在线交易系统或支付系统中,已经存在对于这些风险案件进行识别的策略。通过这些策略,很多风险案件被识别出来。另外,通过客户投诉等方式,也可以识别出一些风险案件。然而,仍旧存在一些隐案。隐案可被定义为实际存在风险的、但是被策略漏过且没有被投诉的风险案件或者被策略拦截所以没有表现出来的风险案件,尤其是策略漏过并且没有被投诉的风险案件。在某些安全场景中(比如盗用和欺诈),风险案件通常来自于客户的投诉,但是在某些风险场景中(比如说非法套现),客户通常不会过来投诉,有的话也只是少量,因此黑样本在量上和多元性上会存在不足,相应地,策略和模型的覆盖率也会不足,所以执行隐案挖掘对于风险的主动防控就显得尤为重要。然而,现有技术中缺少能够执行隐案挖掘的方案。即便存在这样的方案,其适用场景、覆盖率、识别效率等通常也仍有改进空间。因此,存在对于适用场景广泛、覆盖率高、识别效率高的隐案挖掘方案的需要。
技术实现思路
为了克服现有技术的缺陷,本说明书的一个或多个实施例提供了适用场景广泛、覆盖率高、识别效率高的隐案挖掘方案。本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。在一个方面中,公开了一种用于执行隐案挖掘的方法,包括:获取样本集,所述样本集包括已知黑样本和未知样本,所述已知黑样本是已经确定为风险案件的样本;获取变量池,所述变量池包括多个变量;使用所述多个变量的每一种组合,对所述样本集执行聚类算法来得到多个簇;计算所述多个簇中的每个簇中的已知黑样本的浓度;基于所述多个簇中的每个簇的已知黑样本的浓度,选择一个或多个候选簇;以及将所述一个或多个候选簇中的未知样本标识为潜在隐案。优选地,选择一个或多个候选簇包括:确定优选变量组合,所述优选变量组合体现隐案的共同特性;确定使用所述优选变量组合对所述样本集执行聚类算法得到的多个簇,作为多个初步候选簇。优选地,确定优选变量组合包括:将每个簇的已知黑样本浓度与阈值浓度进行比较,从而确定已知黑样本浓度大于所述阈值浓度的一个或多个高黑样本浓度簇;确定未知样本的数量最多的高黑样本浓度簇;确定与所述未知样本的数量最多的高黑样本浓度簇对应的变量组合。优选地,选择一个或多个候选簇还包括:将所述多个初步候选簇选择为所述候选簇。优选地,选择一个或多个候选簇还包括:将所述多个初步候选簇中的每个初步候选簇的已知黑样本浓度与第二阈值浓度进行比较;以及将所述多个初步候选簇中已知黑样本浓度大于第二阈值浓度的初步候选簇选择为所述候选簇。优选地,选择一个或多个候选簇包括:将每个簇的已知黑样本浓度与阈值浓度进行比较,从而确定已知黑样本浓度大于所述阈值浓度的一个或多个高黑样本浓度簇;计算所述一个或多个高黑样本浓度簇中的未知样本的数量;按照未知样本的数量从多到少对所述一个或多个高黑样本浓度簇排序;以及选择排序最高的多个高黑样本浓度簇作为所述候选簇。优选地,选择一个或多个候选簇包括:按照已知黑样本浓度从高到低对所述多个簇排序;以及选择排序最高的多个簇作为候选簇。优选地,所述方法还包括:验证所述潜在隐案中的每一个是否为风险案件。优选地,验证所述潜在隐案中的每一个是否为风险案件包括:确定所述潜在隐案与所述已知黑样本是否存在介质关联、IP地址关联或物理地址关联。优选地,计算所述多个簇中的每个簇中的已知黑样本的浓度包括:确定簇中的每个样本是否为已知黑样本;对所述簇中的已知黑样本的数量进行计数;以及将所述簇中的已知黑样本的数量除以所述簇中的已知黑样本数量和未知样本的数量之和,以得到所述簇的已知黑样本的浓度。优选地,所述聚类算法为HDBSCAN算法。在另一方面中,公开了一种用于执行隐案挖掘的系统,包括:样本集模块,用于获取样本集,所述样本集包括已知黑样本和未知样本,所述已知黑样本是已经确定为风险案件的样本;变量池模块,用于获取变量池,所述变量池包括多个变量;聚类模块,用于使用所述多个变量的每一种组合,对所述样本集执行聚类算法来得到多个簇;潜在隐案标识模块,用于:计算所述多个簇中的每个簇中的已知黑样本的浓度;基于所述多个簇中的每个簇的已知黑样本的浓度,选择一个或多个候选簇;以及将所述一个或多个候选簇中的未知样本标识为潜在隐案。优选地,所述系统还包括潜在隐案验证模块,用于验证所述潜在隐案中的每一个是否为风险案件。优选地,所述系统还包括风险案件处置模块,用于对经验证的风险案件执行处置。优选地,所述聚类模块使用HDBSCAN算法来对所述样本集执行聚类。在又一方面中,公开了一种存储指令的计算机可读存储介质,所述指令当被计算机执行时,使所述计算机执行上述方法。在再一方面中,公开了一种系统,所述系统包括用于执行上述方法的装置。与现有技术相比,本说明书的一个或多个实施例能够提高隐案挖掘的覆盖率、准确度和适用性。附图说明以上
技术实现思路
以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是,附图仅作为所请求保护的专利技术的示例。在附图中,相同的附图标记代表相同或类似的元素。图1示出根据本说明书实施例的用于执行隐案挖掘的方法的流程图。图2示出根据示例一的选择候选簇的方法的流程图。图3示出根据示例二的选择候选簇的方法的流程图。图4示出根据示例三的选择候选簇的方法的流程图。图5示出根据本说明书的实施例的用于执行隐案挖掘的系统的框图。具体实施方式以下具体实施方式的内容足以使任何本领域技术人员了解本说明书的一个或多个实施例的
技术实现思路
并据以实施,且根据本说明书所揭露的说明书、权利要求及附图,本领域技术人员可轻易地理解本说明书的一个或多个实施例相关的目的及优点。目前能够实现隐案挖掘的方案比较少。在不多的隐案挖掘方案中,通常采用的是基于反查的方法。例如,假设所关注的是盗用案件。在盗用案件中,盗用者会盗取被盗者的账号,并通常使用该盗用者自己的设备(可被称为“涉案设备”)利用所盗取的密码登录该账号,从而盗取该账号中的资金或者购买商品来牟利。一种合理的推测是,盗用者如果还盗取了其它账号,他可能使用涉案设备来登录这些账号。因此,通过查询在涉案设备上登录的所有账号,可以排查这些账号是否同样涉及盗用案件或其它风险案件,从而识别出隐案。在此类方法中,通过涉案设备这一中间介质,可以将已识别的风险案件将隐案关联起来,从而通过已识别案件来反查出隐案。当然,也可以设想其它中间介质或关联信息。基于反查方法进行隐案挖掘的缺点:i.强烈依赖强反查介质或者强关联关系。但是在某些场景中,即使已经获得了部分黑样本,却没有能用于进行反查的介质或者关联关系。又例如,涉案者可能反本文档来自技高网
...

【技术保护点】
1.一种用于执行隐案挖掘的方法,其特征在于,包括:/n获取样本集,所述样本集包括已知黑样本和未知样本,所述已知黑样本是已经确定为风险案件的样本;/n获取变量池,所述变量池包括多个变量;/n使用所述多个变量的每一种组合,对所述样本集执行聚类算法来得到多个簇;/n计算所述多个簇中的每个簇中的已知黑样本的浓度;/n基于所述多个簇中的每个簇的已知黑样本的浓度,选择一个或多个候选簇;以及/n将所述一个或多个候选簇中的未知样本标识为潜在隐案。/n

【技术特征摘要】
1.一种用于执行隐案挖掘的方法,其特征在于,包括:
获取样本集,所述样本集包括已知黑样本和未知样本,所述已知黑样本是已经确定为风险案件的样本;
获取变量池,所述变量池包括多个变量;
使用所述多个变量的每一种组合,对所述样本集执行聚类算法来得到多个簇;
计算所述多个簇中的每个簇中的已知黑样本的浓度;
基于所述多个簇中的每个簇的已知黑样本的浓度,选择一个或多个候选簇;以及
将所述一个或多个候选簇中的未知样本标识为潜在隐案。


2.如权利要求1所述的方法,其特征在于,选择一个或多个候选簇包括:
确定优选变量组合,所述优选变量组合体现隐案的共同特性;以及
确定使用所述优选变量组合对所述样本集执行聚类算法得到的多个簇,作为多个初步候选簇。


3.如权利要求2所述的方法,其特征在于,确定优选变量组合包括:
将每个簇的已知黑样本浓度与阈值浓度进行比较,从而确定已知黑样本浓度大于所述阈值浓度的一个或多个高黑样本浓度簇;
确定未知样本的数量最多的高黑样本浓度簇;以及
确定与所述未知样本的数量最多的高黑样本浓度簇对应的变量组合。


4.如权利要求2所述的方法,其特征在于,选择一个或多个候选簇还包括:
将所述多个初步候选簇选择为所述候选簇。


5.如权利要求2所述的方法,其特征在于,选择一个或多个候选簇还包括:
将所述多个初步候选簇中的每个初步候选簇的已知黑样本浓度与第二阈值浓度进行比较;以及
将所述多个初步候选簇中已知黑样本浓度大于第二阈值浓度的初步候选簇选择为所述候选簇。


6.如权利要求1所述的方法,其特征在于,选择一个或多个候选簇包括:
将每个簇的已知黑样本浓度与阈值浓度进行比较,从而确定已知黑样本浓度大于所述阈值浓度的一个或多个高黑样本浓度簇;
计算所述一个或多个高黑样本浓度簇中的未知样本的数量;
按照未知样本的数量从多到少对所述一个或多个高黑样本浓度簇排序;以及
选择排序最高的多个高黑样本浓度簇作为所述候选簇。


7.如权利要求1所述的方法,其特征在于,选择一个或多个候选簇包括:
按照已知黑样本浓度从高到低对所述多个簇排序;以及
选择排序最高的多个簇作为候选簇。


8.如权利要求1所述的方法,其特征在于,还包括:
验证所述潜在隐案中的每一个是否为风险案件。


9.如权利要求8所述的方法,其特征在于,验证所述潜在隐案中的每一个是否为风险案件包括:
确定所述潜在隐案与所述已知黑样本是否存在介质关联、IP地址关联或物理地址关联。


10.如权利要求1所述的方法,其特征在于,计算所述多个簇中的...

【专利技术属性】
技术研发人员:陈志招
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1