团伙发现方法及装置制造方法及图纸

技术编号：37085592 阅读：56 留言：0更新日期：2023-03-29 20:00

本说明书实施例提供了一种团伙发现方法及装置。根据该实施例的方法，首先，基于业务场景提取目标样本群中各目标用户的属性；之后，基于改进的高斯核函数计算相似度矩阵；然后，基于相似度矩阵对目标样本群中的各目标用户进行聚类，并根据聚类结果发现与目标样本群中的种子用户属性相关的目标用户。本说明书实施例能够提高团伙发现的准确率。例能够提高团伙发现的准确率。例能够提高团伙发现的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
团伙发现方法及装置

[0001]本说明书一个或多个实施例涉及信息安全
，尤其涉及团伙发现方法及装置。

技术介绍

[0002]在人脸攻击等风险场景中，常面对群体类的攻击者，即攻击团伙。发现攻击团伙对于减少攻击事件具有重要意义。传统风控方法，往往只识别出攻击团伙中的部分风险成员。借助风险成员即种子用户，去发现其余与种子用户属性相近的高风险攻击用户，不仅可实现种子用户的扩散，还可将已知风险用户的标签传递给未知用户。基于物以类聚的特性，最朴素的想法是将目标样本进行聚类计算。
[0003]然而，目前团伙发现的准确率不高。

技术实现思路

[0004]本说明书一个或多个实施例描述了团伙发现方法及装置，能够提高团伙发现的准确率。
[0005]根据第一方面，提供团伙发现方法，包括：
[0006]基于业务场景提取目标样本群中各目标用户的属性；
[0007]基于改进的高斯核函数计算目标样本群中每两个目标用户的属性之间的相似度，得到相似度矩阵；其中，所述改进的高斯核函数中的参数可随所述目标用户的属性进行自适应动态调整；
[0008]基于所述相似度矩阵对所述目标样本群中的各目标用户进行聚类；
[0009]根据聚类结果发现与所述目标样本群中的种子用户属性相关的目标用户。
[0010]可选地，所述改进的高斯核函数中的参数为目标用户的属性之间的Grassmann距离。
[0011]可选地，所述基于所述相似度矩阵对所述目标样本群中的各目标用户进行聚类，包括：
>[0012]将所述相似度矩阵稀疏化，得到稀疏相似度矩阵；
[0013]根据所述稀疏相似度矩阵计算度矩阵；
[0014]根据所述稀疏相似度矩阵和所述度矩阵计算拉普拉斯矩阵；
[0015]采用聚类算法对所述拉普拉斯矩阵进行聚类。
[0016]可选地，所述采用聚类算法对所述拉普拉斯矩阵进行聚类，包括：
[0017]计算所述拉普拉斯矩阵的K个最大特征值及最大特征值对应的特征列向量，其中，K个最大值对应的特征列向量构成n*K的矩阵Y，n为所述目标样本群中目标用户的数量；
[0018]对矩阵Y中的n个行向量进行单位化得到矩阵Z；
[0019]将矩阵Z中的n个行向量采用最大距离法选取初始聚簇中心的K
‑
均值聚类算法进行聚类。
[0020]可选地，所述基于改进的高斯核函数计算目标样本群中每两个目标用户的属性之间的相似度，得到相似度矩阵，包括：
[0021]基于改进的高斯核函数通过如下计算式计算所述目标样本群中每两个目标用户的属性之间的相似度，得到相似度矩阵：
[0022][0023][0024][0025][0026][0027]计算式(1)至计算式(4)中，表示相似度矩阵，表示目标用户x
i
和目标用户x
j
属性间的相似度，A
i
是由x
i
的k
‑
近邻点构成的子空间，A
j
是由x
j
的k
‑
近邻点构成的子空间，是子空间A
i
与子空间A
j
的Grassmann距离，θ1，θ2，θ
k
是Grassmann流形上A
i
与A
j
之间的k个主角，T表示矩阵的转置，k为目标用户属性的数量，d
Gr(k,n)
表示子空间A
i
与子空间A
j
的Grassmann距离。
[0028]可选地，所述根据所述稀疏相似度矩阵计算度矩阵，包括：
[0029]对所述相似度矩阵的行向量元素通过如下计算式(5)求和，将各行向量元素的求和值作为各行的对角元素，得到度矩阵
[0030][0031][0032]计算式(5)中，n表示所述目标样本群中目标用户的数量，表示目标用户x
i
和目标用户x
j
属性间的相似度。
[0033]可选地，所述根据所述稀疏相似度矩阵和所述度矩阵计算拉普拉斯矩阵，包括：
[0034]根据所述稀疏相似度矩阵和所述度矩阵通过如下计算式(6)计算拉普拉斯矩阵：
[0035][0036]计算式(6)中，表示稀疏相似度矩阵，表示拉普拉斯矩阵。
[0037]可选地，所述对矩阵Y中的n个行向量进行单位化得到矩阵Z，包括：
[0038]通过如下计算式(7)至计算式(9)计算矩阵Z：
[0039]Y＝(y1,y2,
…
,y
K
)∈R
n
×
K
ꢀꢀ
(7)
[0040]Z＝(z
ij
)
n
×
K
ꢀꢀ
(8)
[0041][0042]计算式(7)至计算式(9)中，y
i
矩阵Y中的第i个行向量，R表示实数集，K是矩阵Y中的最大特征值对应的特征列向量的数量。
[0043]可选地，所述根据聚类结果发现与所述目标样本群中的种子用户属性相关的风险用户，包括：
[0044]聚类结果中若矩阵Z的第h个行向量被分至第q个聚簇，则所述目标样本群中的第h个目标用户被分至第q聚簇，h＝1,2,...,n，q＝1,2,...,K；
[0045]若第q聚簇为所述目标样本群中的种子用户所在的聚簇，则所述第h个目标用户被确定为与所述目标样本群中的种子用户属性相关的目标用户。
[0046]可选地，所述根据聚类结果发现与所述目标样本群中的种子用户属性相关的目标用户之后，还包括：
[0047]将与所述目标样本群中的种子用户属性相关的目标用户确定为增量用户，并为所述增量用户赋予风险标签。
[0048]根据第二方面，提供团伙发现装置，包括：
[0049]提取单元，配置为基于业务场景提取目标样本群中各目标用户的属性；
[0050]计算单元，配置为基于改进的高斯核函数计算目标样本群中每两个目标用户的属性之间的相似度，得到相似度矩阵；其中，所述改进的高斯核函数中的参数可随所述目标用户的属性进行自适应动态调整；
[0051]聚类单元，配置为基于所述相似度矩阵对所述目标样本群中的各目标用户进行聚类；
[0052]发现单元，配置为根据聚类结果发现与所述目标样本群中的种子用户属性相关的目标用户。
[0053]根据第三方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现本说明书任一实施例所述的方法。
[0054]在本说明书实施例提供的团伙发现方法及装置，通过基于改进的高斯核函数计算目标样本群中每两个目标用户的属性之间的相似度，并设置改进的高斯核函数中的参数可随目标用户的属性进行自适应动态调整，使得基于相似度矩阵进行聚类获得的聚类结果本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.团伙发现方法，包括：基于业务场景提取目标样本群中各目标用户的属性；基于改进的高斯核函数计算目标样本群中每两个目标用户的属性之间的相似度，得到相似度矩阵；其中，所述改进的高斯核函数中的参数可随所述目标用户的属性进行自适应动态调整；基于所述相似度矩阵对所述目标样本群中的各目标用户进行聚类；根据聚类结果发现与所述目标样本群中的种子用户属性相关的目标用户。2.根据权利要求1所述的方法，其特征在于，所述改进的高斯核函数中的参数为目标用户的属性之间的Grassmann距离。3.根据权利要求1所述的方法，其特征在于，所述基于所述相似度矩阵对所述目标样本群中的各目标用户进行聚类，包括：将所述相似度矩阵稀疏化，得到稀疏相似度矩阵；根据所述稀疏相似度矩阵计算度矩阵；根据所述稀疏相似度矩阵和所述度矩阵计算拉普拉斯矩阵；采用聚类算法对所述拉普拉斯矩阵进行聚类。4.根据权利要求3所述的方法，其特征在于，所述采用聚类算法对所述拉普拉斯矩阵进行聚类，包括：计算所述拉普拉斯矩阵的K个最大特征值及最大特征值对应的特征列向量，其中，K个最大值对应的特征列向量构成n*K的矩阵Y，n为所述目标样本群中目标用户的数量；对矩阵Y中的n个行向量进行单位化得到矩阵Z；将矩阵Z中的n个行向量采用最大距离法选取初始聚簇中心的K
‑
均值聚类算法进行聚类。5.根据权利要求2所述的方法，其特征在于，所述基于改进的高斯核函数计算目标样本群中每两个目标用户的属性之间的相似度，得到相似度矩阵，包括：基于改进的高斯核函数通过如下计算式计算所述目标样本群中每两个目标用户的属性之间的相似度，得到相似度矩阵：性之间的相似度，得到相似度矩阵：性之间的相似度，得到相似度矩阵：性之间的相似度，得到相似度矩阵：性之间的相似度，得到相似度矩阵：
计算式(1)至计算式(4)中，表示相似度矩阵，表示目标用户x
i
和目标用户x
j
属性间的相似度，A
i
是由x
i
的k
‑
近邻点构成的子空间，A
j
是由x
j
的k
‑
近邻点构成的子空间，是子空间A
i
与子空间A
j
的Grassmann距离，θ1，θ2，θ
k
是Grassmann流形上A
i
与A
j
之间的k个主角，T表示矩阵的转置，k为目标用户属性的数量，d
Gr(k,n)
表示子空间A
i
与子空间A
j
的Grassmann距离。6.根据权利要求3所述...

【专利技术属性】
技术研发人员：张雅茹，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人