当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于特征学习和图推理的恶意用户检测方法技术

技术编号:31082512 阅读:29 留言:0更新日期:2021-12-01 12:29
本发明专利技术公开了一种基于特征学习和图推理的恶意用户检测方法,首先根据用户序列来衡量产品的可疑度,然后根据产品的可疑度间接衡量每个用户的可疑度,接着从产品可疑度的角度,提出相关的新特征并结合筛选出的适用于这类新型特征的恶意用户;另一方面,提出同构图假设,构建用户

【技术实现步骤摘要】
征;
[0009]设定U代表用户集合U={u1,u2…
u
n
},其中n代表用户的数目,u
i
代表第i个用户,P 代表商品集合P={p1,p2…
p
m
},其中m代表商品的数目,p
j
代表第j个商品,采用D代表 商品的用户序列的集合D={d1,d2…
d2},设定变量a
ij
,表示在商品i成为目标商品的前提 下,商品j成为目标商品的可疑度;
[0010]根据恶意用户和正常用户在商品使用上呈现的分布特点,进行预定义假设如下:
[0011]假设1:当一种商品与另一种商品具有达到预设阈值的相同用户序列数量时,则该 种商品则被定义为高可疑度目标商品;
[0012]假设2:高可疑度目标商品与多个商品具有部分相同的用户序列,且该相同用户序 列数量达到预设阈值;
[0013]基于上述假设1可得:
[0014][0015]基于假设2找出基于高可疑度商品分布的商品性质如下:
[0016][0017]a
i
=argmaxE(a
i
)
[0018]其中E表示数学期望,a
ij
表示在第i个商品成为高可疑度目标商品的前提下,第j 个商品成为高可疑度目标商品的可疑度;完成商品可疑度度量后,根据以下假设,构建 新的区分特征:
[0019]假设3:用户在多个高可疑度目标商品下评论时更有可能是恶意用户;
[0020]假设4:用户评论的商品可疑度越高,该用户为恶意用户的概率越大;
[0021]设定第i个用户u
i
所评论的商品的可疑度分布为u
i
={sp1,sp2…
sp
k
},基于假设3, 采用字符PSU表示公化结果如下:
[0022][0023][0024]基于上述假设4,定义ASU如下:
[0025][0026]步骤S3、融合图神经网络和成对马尔可夫检测模型,并在GMMM的理论框架下, 建立特征学习和标签分布推理的统一目标函数,将二分类任务转化为图节点的分类任务。
[0027]进一步地,所述步骤S3中,首先提出假设5:当一个用户和另一用户拥有相同数量 的高可疑度目标商品时,二者具备相似标签;
[0028]基于上述同构图假设,构建图结构;其中每一个节点表示一个用户,当用户与用户 之间拥有相同数目的高可疑度商品时,则两者之间具备边关系;否则二者之间无边关系;
预测标签y
k
,对节点n的邻居节点中已有标记的节点k,则使用真实的标签;
[0049]通过更新参数θ减少q
θ
(y
k
|X
V
)和的KL散度,优化目标如下:
[0050][0051]利用标记数据对q
θ
(y
n
|x
v
)进行训练,采用基于监督学习的方式优化下面的目标函 数:
[0052][0053]其中y
n
是节点n的真实标签;
[0054]因此对参数θ进行优化整合为:
[0055]O
θ
=O
θ,U
+O
θ,L
[0056]最后采用交叉损失函数更新模型。
[0057]进一步地,所述学习模型的训练过程包括:
[0058]首先用带标签的数据训练q
θ
;然后交替迭代,训练模型参数p
φ
和q
θ
;在M

step中, 固定模型q
θ
的参数,先用q
θ
模型预测出未标记节点的标签,然后从所述标签分布中进行 采样,输入到p
φ
中,根据交叉损失进行参数更新;在E

step中,固定模型p
φ
的参数,先 用模型p
φ
预测出未标记节点的标签,然后从所述标签分布中进行采样,输入到模型q
θ
中, 采用交叉损失函数更新模型。
[0059]进一步地,所述步骤S1中构建的基础特征包括:投票偏差,撰写最大评论数目, 平均时间间隔,平均评论单词长度,平均投票数目,评论次数,评论突然出现可疑度, 投票极端比例,投积极票比例,投消极票比例,评论第一次出现比例和评论者一天内最 大评论次数。
[0060]有益效果:
[0061]本专利技术提供的基于特征学习和图推理的恶意用户检测方法,首先根据用户序列来衡 量产品的可疑度,然后根据产品的可疑度间接衡量每个用户的可疑度,接着从产品可疑 度的角度,提出相关的新特征并结合筛选出的适用于这类新型特征的恶意用户。另一方 面,假设具有相同高度可以产品数量的用户相似来构建用户

用户图,最后融合图神经网 络的特征学习和成对马尔可夫的标签传播方法,建立统一的目标函数进行迭代优化,进 行图节点的特征学习和节点标签推理,从而完成水军检测。
附图说明
[0062]图1是本专利技术实施例中提取的各个基础特征对比图;
[0063]图2是本专利技术实施例中将水军检测任务转化为图节点分类任务的示意图。
具体实施方式
[0064]下面结合附图对本专利技术作更进一步的说明。
[0065]本专利技术提供了一种基于特征学习和图推理的恶意用户检测方法,包括以下步骤:
[0066]步骤S1、构建基础特征;
[0067]基于用户的评论时间、评论内容、评论ID、所评论的商品信息和用户完成的投票打 分事项,筛选出若干特征,用于区分恶意用户和普通用户。具体地,构建的基础特征包 括:投票偏差,撰写最大评论数目,平均时间间隔,平均评论单词长度,平均投票数目, 评论次数,评论突然出现可疑度,投票极端比例,投积极票比例,投消极票比例,评论 第一次出现比例和评论者一天内最大评论次数。
[0068]步骤S2、基于若干预定义假设,度量商品的可疑度,在商品视角下构建新的区分特 征;
[0069]设定U代表用户集合U={u1,u2…
u
n
},其中n代表用户的数目,u
i
代表第i个用户,P 代表商品集合P={p1,p2…
p
m
},其中m代表商品的数目,p
j
代表第j个商品,采用D代表 商品的用户序列的集合D={d1,d2…
d2},设定变量a
ij
,表示在商品i成为目标商品的前提 下,商品j成为目标商品的可疑度;
[0070]根据恶意用户和正常用户在商品使用上呈现的分布特点,进行预定义假设如下:
[0071]假设1:当一种商品与另一种商品具有达到预设阈值的相同用户序列数量时,则该 种商品则被定义为高可疑度目标商品;
[0072]假设2:高可疑度目标商品与多个商品具有部分相同的用户序列,且该相同用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征学习和图推理的恶意用户检测方法,其特征在于,包括以下步骤:步骤S1、构建基础特征;基于用户的评论时间、评论内容、评论ID、所评论的商品信息和用户完成的投票打分事项,筛选出若干特征,用于区分恶意用户和普通用户;步骤S2、基于若干预定义假设,度量商品的可疑度,在商品视角下构建新的区分特征;设定U代表用户集合U={u1,u2…
u
n
},其中n代表用户的数目,u
i
代表第i个用户,P代表商品集合P={p1,p2…
p
m
},其中m代表商品的数目,p
j
代表第j个商品,采用D代表商品的用户序列的集合D={d1,d2…
d2},设定变量a
ij
,表示在商品i成为目标商品的前提下,商品j成为目标商品的可疑度;根据恶意用户和正常用户在商品使用上呈现的分布特点,进行预定义假设如下:假设1:当一种商品与另一种商品具有达到预设阈值的相同用户序列数量时,则该种商品则被定义为高可疑度目标商品;假设2:高可疑度目标商品与多个商品具有部分相同的用户序列,且该相同用户序列数量达到预设阈值;基于上述假设1可得:基于假设2找出基于高可疑度商品分布的商品性质如下:a
i
=argmaxE(a
i
)其中E表示数学期望,a
ij
表示在第i个商品成为高可疑度目标商品的前提下,第j个商品成为高可疑度目标商品的可疑度;完成商品可疑度度量后,根据以下假设,构建新的区分特征:假设3:用户在多个高可疑度目标商品下评论时更有可能是恶意用户;假设4:用户评论的商品可疑度越高,该用户为恶意用户的概率越大;设定第i个用户u
i
所评论的商品的可疑度分布为u
i
={sp1,sp2…
sp
k
},基于假设3,采用字符PSU表示公化结果如下:字符PSU表示公化结果如下:基于上述假设4,定义ASU如下:步骤S3、融合图神经网络和成对马尔可夫检测模型,并在GMMM的理论框架下,建立特征学习和标签分布推理的统一目标函数,将二分类任务转化为图节点的分类任务。
2.根据权利要求1所述的一种基于特征学习和图推理的恶意用户检测方法,其特征在于,所述步骤S3中,首先提出假设5:当一个用户和另一用户拥有相同数量的高可疑度目标商品时,二者具备相似标签;基于上述同构图假设,构建图结构;其中每一个节点表示一个用户,当用户与用户之间拥有相同数目的高可疑度商品时,则两者之间具备边关系;否则二者之间无边关系;将所述图结构G定义为:G=(V,E,X
V
),其中V代表图中顶点的集合,即用户集合,E代表图中边的集合,即用户之间的关系集合,X
V
表示图中所有节点的特征的集合;给定若干带有标签y
L
的节点预测剩余节点U=V\L所属标签;通过条件随机场将图中节点的联合分布建模为:其中Yv代表图中节点标签的集合,z(Xv)表示图中节点结合的势能函数;(i,j)表示为图G中的一条边,ψ
i,j
(y
i
,y
j
,X
V
)为定义在所述边上的势能函数;将所述无标签节点的预测问题转化为推断问题,推断无标签节点的后验概率分布p(Y
U
|Y
L
,X
V
),采用p
φ
(Y
V
|X
V
)表示定义在边上的势能函数,其中φ代表模型的参数;采用优化ELBO近似替代优化最大似然估计log p
φ
(Y
L
|X
V
),学习模型的参数φ如下:其中q

【专利技术属性】
技术研发人员:曹杰郭翔丁达陈蕾
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1