【技术实现步骤摘要】
用于检测异常数据的方法、设备和计算机可读存储介质
本公开大体上涉及数据挖掘领域,且更具体地涉及用于检测异常数据的方法、设备和计算机可读存储介质。
技术介绍
网络欺诈已经成为了当代互联网的严重威胁之一。欺诈的目的形形色色,从轻微的试图获取公众注意力到严重的金融诈骗(例如,信用卡盗用)都有。例如,在社交网站或媒体分享网站上,人们想要通过增加更多的粉丝(关注者或追随者)来增加自身的账户价值。又例如,在电子商务网站上,欺诈者注册很多账户以滥用网站提供的新用户优惠,或者向正常用户兜售虚假服务、商品等。因此,需要一种能够检测到这种网络欺诈行为的方案。
技术实现思路
为了至少部分解决或减轻上述问题,提供了根据本公开的用于检测异常数据的方法、设备和计算机可读存储介质。根据本公开的第一方面,提供了一种用于检测异常数据的方法。该方法包括:确定与待检测数据集相对应的对象相似度图,其中,所述对象相似度图中的每个顶点对应于所述待检测数据集中的对象数据,以及所述对象相似度图中的每条边指示与由该边连接的两个顶点相对应的对象数据 ...
【技术保护点】
1.一种用于检测异常数据的方法,包括:/n确定与待检测数据集相对应的对象相似度图,其中,所述对象相似度图中的每个顶点对应于所述待检测数据集中的对象数据,以及所述对象相似度图中的每条边指示与由该边连接的两个顶点相对应的对象数据之间的相似度;/n将所述对象相似度图中的顶点分为一个或多个组;以及/n将与所述一个或多个组中至少一个组的顶点相对应的对象数据确定为异常数据。/n
【技术特征摘要】
1.一种用于检测异常数据的方法,包括:
确定与待检测数据集相对应的对象相似度图,其中,所述对象相似度图中的每个顶点对应于所述待检测数据集中的对象数据,以及所述对象相似度图中的每条边指示与由该边连接的两个顶点相对应的对象数据之间的相似度;
将所述对象相似度图中的顶点分为一个或多个组;以及
将与所述一个或多个组中至少一个组的顶点相对应的对象数据确定为异常数据。
2.根据权利要求1所述的方法,其中,所述待检测数据集具有二分图的形式,所述二分图的顶点包括与所述对象数据相对应的对象顶点和与用户数据相对应的用户顶点,所述二分图的边包括一个或多个用户顶点与一个或多个对象顶点之间的边。
3.根据权利要求2所述的方法,其中,确定与待检测数据集相对应的对象相似度图的步骤包括:
将所述二分图中的一个或多个对象顶点确定为所述对象相似度图中的相应顶点;以及
基于所述二分图中两个对象顶点之间的相似度,来确定所述对象相似度图中相应顶点之间的边的权重。
4.根据权利要求3所述的方法,其中,两个对象顶点之间的相似度是至少基于分别与所述两个对象顶点相连的用户顶点来确定的。
5.根据权利要求4所述的方法,其中,两个对象顶点mi和mj之间的相似度Cij是如下确定的:
Cij=Sij
其中,Ii是包括所述二分图中与mi相邻的用户顶点在内的元组的集合,Ij是包括所述二分图中与mj相邻的用户顶点在内的元组的集合,以及|·|表示集合的元素数量。
6.根据权利要求4所述的方法,其中,两个对象顶点mi和mj之间的相似度Cij是如下确定的:
其中,Ii是包括所述二分图中与mi相邻的用户顶点在内的元组的集合,Ij是包括所述二分图中与mj相邻的用户顶点在内的元组的集合,是包括所述二分图中带标记的数据中与mi相邻的用户顶点在内的元组的集合,是包括所述二分图中带标记的数据中与mj相邻的用户顶点在内的元组的集合,mean(·)表示求平均值,M是所述二分图中对象顶点的全集,以及|·|表示集合的元素数量。
7.根据权利要求5或6所述的方法,其中,各个元组还包括以下至少一项:
时间戳;以及
星级评分。
8.根据权利要求1所述的方法,其中,将所述对象相似度图中的顶点分为一个或多个组的步骤包括:
向所述对象相似度图中的每个顶点分配唯一标签;
针对每个顶点,基于其邻居的标签来更新该顶点的标签一次或多次,直到满足停止条件为止;以及
根据标签将顶点分为一组或多组,使得具有相同标签的顶点在同一组中,具有不同标签的顶点在不同组中。
9.根据权利要求8所述的方法,其中,针对每个顶点,基于其邻居的标签来更新该顶点的标签一次或多次,直到满足停止条件为止的步骤包括:
针对每个顶点mi,执行以...
【专利技术属性】
技术研发人员:班义琨,段亦涛,黄铃,
申请(专利权)人:慧安金科北京科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。