System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及直播风控,具体而言,涉及一种无监督团伙识别方法、装置及电子设备。
技术介绍
1、在直播场景中,存在黑客操作大量用户账号进行不法行为,比如欺诈、发布恶意评论、或者薅羊毛等行为。为此对被黑客操纵的大量用户账号进行识别是很有必要的。
技术实现思路
1、为了解决上述技术问题,本申请提供一种无监督团伙识别方法、装置及电子设备。
2、第一方面,本申请实施例提供一种无监督团伙识别方法,所述方法包括:
3、获取一时间窗口内用户参与直播活动的时间戳序列,并基于所述时间戳序列得到所述用户参与直播活动的时序特征向量;
4、基于不同所述用户的时序特征向量,计算得到不同所述用户之间的相似度距离;
5、根据不同所述用户之间的相似度距离,对不同所述用户进行聚类处理,得到不同的团伙群组;
6、对不同所述团伙群组中的用户信息进行挖掘,得到用于识别不同所述团伙群组成团的共性特征信息。
7、在一种可能的实现方式中,所述获取一时间窗口内用户参与直播活动的时间戳序列,并基于所述时间戳序列得到所述用户参与直播活动的时序特征向量的步骤,包括:
8、获取一时间窗口内用户进入直播间的时间戳序列,其中,所述时间戳序列中包括所述用户每次进入所述直播间的时间戳;
9、计算所述用户每次进入所述直播间的时间戳距离所述时间窗口的起始时刻的时长,由所述时长组成所述用户参与直播活动的时序特征向量。
10、在一种可能的实现方式中,所
11、基于不同所述用户的时序特征向量,计算不同所述用户之间的动态时间弯曲距离,由所述动态时间弯曲距离表征不同所述用户之间的相似度距离;
12、所述基于不同所述用户的时序特征向量,计算不同所述用户之间的动态时间弯曲距离的步骤,包括:
13、构建一距离矩阵,所述距离矩阵的行数和列数分别对应两个所述用户的时序特征向量中的向量元素数量;
14、对所述距离矩阵进行初始化;
15、更新初始化后所述距离矩阵中各矩阵元素的值,由所述距离矩阵中右下角的矩阵元素的值作为两个所述用户之间的动态时间弯曲距离;
16、更新初始化后所述距离矩阵中各矩阵元素的值的公式为:
17、di,j=d(xi,yj)+min{di-1,j,di,j-1,di-1,j-1}
18、其中,矩阵元素dij表示从起点(1,1)到当前点(i,j)的最短路径距离,d(xi,yj)表示xi和yi之间的距离,xi为一用户的时序特征向量中的第i个向量元素,yi为另用户的时序特征向量中的第j个向量元素。
19、在一种可能的实现方式中,根据不同所述用户之间的相似度距离,对不同所述用户进行聚类处理,得到不同的团伙群组的步骤,包括:
20、由所述时间窗口内参与直播活动的用户组成用户集合,其中,所述用户集合中的任意一个样本点代表一个用户;
21、基于不同所述用户之间的相似度距离、预先设置的聚类半径以及预先设置的最小点数值,在所述用户集合中确定出核心点和非核心点;
22、基于所述核心点的分类标签对所述用户集合中的所有样本点进行分类,将不同分类标签的样本点所对应用户划分为不同的团伙群组。
23、在一种可能的实现方式中,所述基于不同所述用户之间的相似度距离、预先设置的聚类半径以及预先设置的最小点数值,在所述用户集合中确定出核心点和非核心点的步骤,包括:
24、针对所述用户集合中的任意一目标样本点,得到以该目标样本点为圆心并以所述预先设置的聚类半径为半径的邻居区域;
25、确定所述邻居区域内相邻样本点的数量,并将所述相邻样本点的数量与所述预先设置的最小点数值进行比较;
26、在所述相邻样本点的数量大于所述预先设置的最小点数值时,判定所述目标样本点为核心点,反之,判定所述目标样本点为非核心点。
27、在一种可能的实现方式中,所述基于所述核心点的分类标签对所述用户集合中的所有样本点进行分类,将不同分类标签的样本点所对应用户划分为不同的团伙群组的步骤,包括:
28、初始化所述用户集合中的所有样本点的分类标签为未分类;
29、随机选择一未分类的样本点作为待分类样本点;
30、检测所述待分类样本点是否为核心点,,若所述待分类样本点不是核心点,则重新随机选择一未分类的样本点作为待分类样本点进行处理,若所述待分类样本点是核心点,则为所述待分类样本点分配一新的分类标签;
31、对分配新的分类标签的核心点的邻居区域内的所有未分类的样本点分配与其相同的分类标签;
32、检测分配新的分类标签的核心点的邻居区域内是否存在相邻样本点为核心点,若存在,为所述相邻样本点的邻居区域内的所有未分类的样本点分配与所述相邻样本点相同的分类标签;
33、检测所述用户集合中的样本点是否均被分类;
34、若未均被分类则回到所述随机选择一未分类的样本点作为待分类样本点的步骤;
35、若均被分类,则将不同分类标签的样本点所对应用户划分为不同的团伙群组。
36、在一种可能的实现方式中,所述对不同所述团伙群组中的用户信息进行挖掘,得到用于识别不同所述团伙群组成团的共性特征信息的步骤,包括:
37、对不同所述团伙群组中的用户信息进行频繁项集挖掘,其中,所述用户信息包括用户登录的设备指纹信息、用户的属性信息以及静态上下文信息;
38、获取不同所述团伙群组中用户的频繁项,基于所述频繁项确定出不同所述团伙群组的共性特征信息。
39、在一种可能的实现方式中,在所述获取一时间窗口内用户参与直播活动的时间戳序列,并基于所述时间戳序列得到所述用户参与直播活动的时序特征向量的步骤之前,所述方法还包括:
40、采用滑窗方式确定所述时间窗口,其中相邻时间窗口存在时间重叠区域;
41、在对不同所述团伙群组中的用户信息进行挖掘,得到用于识别不同所述团伙群组成团的共性特征信息的步骤之后,所述方法还包括:
42、将不同所述团伙群组的共性特征信息发送给业务端。
43、第二方面,本申请实施例还提供无监督团伙识别装置,所述装置包括:
44、获取模块,用于获取一时间窗口内用户参与直播活动的时间戳序列,并基于所述时间戳序列得到所述用户参与直播活动的时序特征向量;
45、计算模块,用于基于不同所述用户的时序特征向量,计算得到不同所述用户之间的相似度距离;
46、聚类模块,用于根据不同所述用户之间的相似度距离,对不同所述用户进行聚类处理,得到不同的团伙群组;
47、挖掘模块,用于对不同所述团伙群组中的用户信息进行挖掘,得到用于识别不同所述团伙群组成团的共性特征信息。
48本文档来自技高网...
【技术保护点】
1.一种无监督团伙识别方法,其特征在于,所述方法包括:
2.如权利要求1所述的无监督团伙识别方法,其特征在于,所述获取一时间窗口内用户参与直播活动的时间戳序列,并基于所述时间戳序列得到所述用户参与直播活动的时序特征向量的步骤,包括:
3.如权利要求2所述的无监督团伙识别方法,其特征在于,所述基于不同所述用户的时序特征向量,计算得到不同所述用户之间的相似度距离的步骤,包括:
4.如权利要求3所述的无监督团伙识别方法,其特征在于,根据不同所述用户之间的相似度距离,对不同所述用户进行聚类处理,得到不同的团伙群组的步骤,包括:
5.如权利要求4所述的无监督团伙识别方法,其特征在于,所述基于不同所述用户之间的相似度距离、预先设置的聚类半径以及预先设置的最小点数值,在所述用户集合中确定出核心点和非核心点的步骤,包括:
6.如权利要求5所述的无监督团伙识别方法,其特征在于,所述基于所述核心点的分类标签对所述用户集合中的所有样本点进行分类,将不同分类标签的样本点所对应用户划分为不同的团伙群组的步骤,包括:
7.如权利要求6所
8.如权利要求1-7中任意一项所述的无监督团伙识别方法,其特征在于,在所述获取一时间窗口内用户参与直播活动的时间戳序列,并基于所述时间戳序列得到所述用户参与直播活动的时序特征向量的步骤之前,所述方法还包括:
9.一种无监督团伙识别装置,其特征在于,所述装置包括:
10.一种电子设备,其特征在于,所述电子设备包括处理器及计算机可读存储介质,所述处理器及所述计算机可读存储介质之间通过总线系统连接,所述计算机可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码,以实现权利要求1-8中任意一项所述的无监督团伙识别方法。
...【技术特征摘要】
1.一种无监督团伙识别方法,其特征在于,所述方法包括:
2.如权利要求1所述的无监督团伙识别方法,其特征在于,所述获取一时间窗口内用户参与直播活动的时间戳序列,并基于所述时间戳序列得到所述用户参与直播活动的时序特征向量的步骤,包括:
3.如权利要求2所述的无监督团伙识别方法,其特征在于,所述基于不同所述用户的时序特征向量,计算得到不同所述用户之间的相似度距离的步骤,包括:
4.如权利要求3所述的无监督团伙识别方法,其特征在于,根据不同所述用户之间的相似度距离,对不同所述用户进行聚类处理,得到不同的团伙群组的步骤,包括:
5.如权利要求4所述的无监督团伙识别方法,其特征在于,所述基于不同所述用户之间的相似度距离、预先设置的聚类半径以及预先设置的最小点数值,在所述用户集合中确定出核心点和非核心点的步骤,包括:
6.如权利要求5所述的无监督团伙识别方法,其特征在于,所述基于所述核心点的分类标签对所述用户...
【专利技术属性】
技术研发人员:邓钰钊,
申请(专利权)人:广州虎牙信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。