System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 目标团体识别方法、装置、介质及设备制造方法及图纸_技高网

目标团体识别方法、装置、介质及设备制造方法及图纸

技术编号:41195248 阅读:3 留言:0更新日期:2024-05-07 22:24
本申请提供一种目标团体挖掘方法、装置、介质及设备,涉及计算机技术领域,该方法可以以目标用户标识为单位,获取与其对应的、包含了各行为场景的子数据集的行为数据集。基于这样的行为数据集,先确定同一行为场景下的、目标用户标识之间的局部行为相似度,可以得到精细化的相似度表征。进而,再基于局部行为相似度确定兼顾全局性和精细度的全局行为相似度,以全局行为相似度为依据从待分析用户标识集中关联出的目标团体是更为准确的。基于上述方式识别目标团体可以规避漏识别、错识别等问题,并且,上述方式是利用行为相似度进行目标团体识别的,这样可以增加目标团体的反识别技术研发难度,相较于相关技术,具备更高的团体识别精度。

【技术实现步骤摘要】

本申请涉及计算机,具体而言,涉及一种目标团体挖掘方法、目标团体挖掘装置、计算机可读存储介质及电子设备。


技术介绍

1、为了实现一些非正常目的,一些用户会在互联网中进行一些不被大众认可的网络活动。为了使得非正常目的产生的效果最大化,这些用户会通过多个账号来完成上述活动,例如,用户注册多个账号共同抢优惠券。

2、然而,上述活动会对正常的生产生活以及互联网业务运营产生负面影响,因此,识别出参与上述活动的用户/账号并对其进行处理是必要的。在相关技术中,通常会基于相同的设备ip、相同的手机号或者相同的设备型号等条件,从海量账号中关联出可疑账号,并将这些可疑账号确定为,用于实现非正常目的的团体。

3、但是,相关技术的团体识别方式,容易被这些团体通过特殊技术手段(如,使用随机生成的ip、手机号或设备型号等)规避。因此,可以理解的是,相关技术的团体识别方式中存在识别精度不高的问题。

4、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有方案的信息。


技术实现思路

1、本申请的目的在于提供一种目标团体挖掘方法、目标团体挖掘装置、计算机可读存储介质及电子设备,可以以目标用户标识为单位,获取与其对应的、包含了各行为场景的子数据集的行为数据集。基于这样的行为数据集,先确定同一行为场景下的、目标用户标识之间的局部行为相似度,可以得到精细化的相似度表征。进而,再基于局部行为相似度确定兼顾全局性和精细度的全局行为相似度,以全局行为相似度为依据从待分析用户标识集中关联出的目标团体是更为准确的。基于上述方式识别目标团体可以规避漏识别、错识别等问题,并且,上述方式是利用行为相似度进行目标团体识别的,这样可以增加目标团体的反识别技术研发难度,相较于相关技术直接通过字段值的一致性进行团体识别的方案,本申请具备更高的团体识别精度。

2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

3、根据本申请的一方面,提供一种目标团体挖掘方法,该方法包括:

4、获取对应于待分析用户标识集中各目标用户标识的行为数据集,行为数据集中包含对应于各行为场景的子数据集;

5、基于各行为场景的子数据集,确定每两个目标用户标识在同一行为场景下的局部行为相似度;

6、基于各局部行为相似度确定每两个目标用户标识之间全局行为相似度;

7、基于各全局行为相似度从待分析用户标识集中关联出目标团体。

8、在本申请的一种示例性实施例中,行为场景包括以下至少一种:注册场景、登录场景、签到场景、交易场景;子数据集包括以下字段:用户标识、联系方式、地址、时间戳。

9、在本申请的一种示例性实施例中,还包括:

10、获取综合用户标识集中各用户标识的行为数据集;

11、基于时空同步判定规则限定的特定字段,将各行为数据集中的数据抽象为数据组,以得到对应于各用户标识的数据组集合;其中,数据组集合中各数据组包含特定字段的值;

12、若存在满足相似判定标准的两个目标数据组集合,则将两个目标数据组集合分别对应的用户标识确定为目标用户标识。

13、在本申请的一种示例性实施例中,还包括:

14、若两个数据组集合中分别存在处于同一时间区间的目标数据,且两个目标数据之间至少一个特定字段的值相同,则将两个数据组集合确定为两个目标数据组集合。

15、在本申请的一种示例性实施例中,基于各行为场景的子数据集,确定每两个目标用户标识在同一行为场景下的局部行为相似度,包括:

16、针对每两个目标用户标识在同一行为场景下的子数据集进行相似判定;

17、基于相似判定结果统计得到分子,并将每两个目标用户标识在同一行为场景下的子数据集并集确定为分母;

18、基于分子和分母生成局部行为相似度。

19、在本申请的一种示例性实施例中,基于各局部行为相似度确定每两个目标用户标识之间全局行为相似度,包括:

20、对每两个目标用户标识在各行为场景下的局部行为相似度进行求和,得到每两个目标用户标识对应的全局行为相似度。

21、在本申请的一种示例性实施例中,基于各全局行为相似度从待分析用户标识集中关联出目标团体,包括:

22、根据各全局行为相似度,对表征待分析用户标识集的节点关系网进行剪枝,得到目标关系网;

23、基于连通图算法确定目标关系网中的连通子图集合;

24、将连通子图集合中各连通子图内的子图用户标识关联为目标团体,得到分别对应于各连通子图的目标团体。

25、在本申请的一种示例性实施例中,根据各全局行为相似度,对表征待分析用户标识集的节点关系网进行剪枝,得到目标关系网,包括:

26、从各全局行为相似度中确定大于预设相似度的目标相似度;

27、根据各目标相似度与节点关系网中的边之间的关系,对节点关系网进行剪枝,得到目标关系网;其中,目标关系网中各边与各目标相似度一一对应。

28、在本申请的一种示例性实施例中,还包括:

29、确定各连通子图内的子图用户标识的综合数据集;其中,综合数据集包括相应子图用户标识的行为数据集和设备数据集;

30、基于各综合数据集,统计分别对应于各连通子图的描述信息;

31、根据各描述信息与各连通子图之间的关系,对各描述信息与各目标团体进行对应输出。

32、根据本申请的一方面,提供一种目标团体挖掘装置,该装置包括:

33、数据获取单元,用于获取对应于待分析用户标识集中各目标用户标识的行为数据集,行为数据集中包含对应于各行为场景的子数据集;

34、局部相似度确定单元,用于基于各行为场景的子数据集,确定每两个目标用户标识在同一行为场景下的局部行为相似度;

35、全局相似度确定单元,用于基于各局部行为相似度确定每两个目标用户标识之间全局行为相似度;

36、目标团体识别单元,用于基于各全局行为相似度从待分析用户标识集中关联出目标团体。

37、在本申请的一种示例性实施例中,行为场景包括以下至少一种:注册场景、登录场景、签到场景、交易场景;子数据集包括以下字段:用户标识、联系方式、地址、时间戳。

38、在本申请的一种示例性实施例中,还包括:

39、数据获取单元,还用于获取综合用户标识集中各用户标识的行为数据集;

40、数据组确定单元,用于基于时空同步判定规则限定的特定字段,将各行为数据集中的数据抽象为数据组,以得到对应于各用户标识的数据组集合;其中,数据组集合中各数据组包含特定字段的值;

41、目标用户标识确定单元,用于在存在满足相似判定标准的两个目标数据组集合时,将两个目标数据组集合分别对应的用户标识确定为目标用户标识。<本文档来自技高网...

【技术保护点】

1.一种目标团体挖掘方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述行为场景包括以下至少一种:注册场景、登录场景、签到场景、交易场景;所述子数据集包括以下字段:用户标识、联系方式、地址、时间戳。

3.根据权利要求1所述的方法,其特征在于,还包括:

4.根据权利要求3所述的方法,其特征在于,还包括:

5.根据权利要求1所述的方法,其特征在于,基于所述各行为场景的子数据集,确定每两个目标用户标识在同一行为场景下的局部行为相似度,包括:

6.根据权利要求1所述的方法,其特征在于,基于各局部行为相似度确定每两个目标用户标识之间全局行为相似度,包括:

7.根据权利要求1所述的方法,其特征在于,基于各全局行为相似度从所述待分析用户标识集中关联出目标团体,包括:

8.根据权利要求7所述的方法,其特征在于,根据各全局行为相似度,对表征所述待分析用户标识集的节点关系网进行剪枝,得到目标关系网,包括:

9.根据权利要求7所述的方法,其特征在于,还包括:

10.一种目标团体挖掘装置,其特征在于,包括:

11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的方法。

12.一种电子设备,其特征在于,包括:

...

【技术特征摘要】

1.一种目标团体挖掘方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述行为场景包括以下至少一种:注册场景、登录场景、签到场景、交易场景;所述子数据集包括以下字段:用户标识、联系方式、地址、时间戳。

3.根据权利要求1所述的方法,其特征在于,还包括:

4.根据权利要求3所述的方法,其特征在于,还包括:

5.根据权利要求1所述的方法,其特征在于,基于所述各行为场景的子数据集,确定每两个目标用户标识在同一行为场景下的局部行为相似度,包括:

6.根据权利要求1所述的方法,其特征在于,基于各局部行为相似度确定每两个目标用户标识之间全...

【专利技术属性】
技术研发人员:徐英浩王杰王博董启江
申请(专利权)人:同盾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1