基于深度强化学习的社交网络均衡影响最大化系统及方法技术方案

技术编号:39428257 阅读:14 留言:0更新日期:2023-11-19 16:14
本发明专利技术提出基于深度强化学习的社交网络均衡影响最大化系统及方法,包括:实体相关性评估模块,用于提取社交网络中用户的历史行为序列信息和两个目标实体的特征信息,获取用户的均衡暴露系数;均衡种子节点选拔模块,用于根据均衡暴露系数构建目标网络,计算目标网络中每个节点的Q

【技术实现步骤摘要】
基于深度强化学习的社交网络均衡影响最大化系统及方法


[0001]本专利技术属于社交网络
,尤其涉及基于深度强化学习的社交网络均衡影响最大化系统及方法。

技术介绍

[0002]随着互联网技术的不断发展,在线社交网络服务成为了信息时代人类生活的重要组成部分,它使人们可以通过社交媒体快速地获取信息和发表观点。社交媒体平台的出现给人们的生活提供了极大便利,但同时也放大了回音室和过滤气泡问题所带来的影响。被困在过滤气泡里的用户通常难以接触到多样化的观点,并被孤立在自己的信息茧房里。这种现象的发生将会导致社交网络的偏激化,即充满争议的话题越来越多,不利于社交网络的正常发展。
[0003]影响力最大化研究作为社交网络分析领域的热点,已经在个性化推荐、病毒式营销和谣言控制等方面有着广泛的应用。尽管影响力最大化研究研究已经取得了有效进展,但传统影响力最大化研究主要针对的还是单一实体的传播最大化,其研究成果难以满足高速发展的在线社交网络的应用需求。因此,越来越多的学者开始关注多实体的影响力传播问题。截止目前,针对多实体传播扩散场景下的影响力最大化研究大多数假设实体关系是单一的,即:只有竞争、合作和中立的一种。只有少部分学者提出包含多种实体关系的影响力传播方法,但这些研究方法带有偏向性,仅将一个实体作为目标进行影响力传播最大化。实际上,在这个信息大爆炸的互联网时代,不同观点的多样化传播显然更为重要。
[0004]与传统影响最大化工作不同的是,均衡影响最大化的目标是让用户接受实体的均衡性,即能接受多个实体的影响,并非只接受单一实体。已有关于均衡影响最大化的工作在考虑两个相互对立实体的均衡传播问题时,忽略了社交网络中其它实体的传播扩散,难以反映现实社交网络中的传播扩散场景。其次,已有求解均衡影响最大化问题的方法通常需要生成大量的传播样本来进行影响力估计,难以将解决方案直接应用在大型社交网络中,在运行效率方面有一定的局限性。因此,为了能有效解决多实体社交网络中的均衡影响最大化问题,需要提出新的方法。

技术实现思路

[0005]为解决上述技术问题,本专利技术提出基于深度强化学习的社交网络均衡影响最大化系统及方法,可以在多实体社交网络中准确评估两个目标实体和其它实体间的相关性,计算社交网络中用户传播目标实体的概率,进而利用深度强化学习技术准确挖掘两个目标实体的均衡种子节点,为现实社交网络中的信息茧房问题提供了较好的解决方案,在一定程度上促进了社交网络中信息的多样化传播。
[0006]为实现上述目的本专利技术提出基于深度强化学习的社交网络均衡影响最大化系统,包括:实体相关性评估模块和均衡种子节点选拔模块;
[0007]所述实体相关性评估模块,用于提取社交网络中用户的历史行为序列信息和两个
目标实体的特征信息,基于所述历史行为序列信息和特征信息进行向量化编码,获取用户的均衡暴露系数;
[0008]所述均衡种子节点选拔模块,用于根据所述均衡暴露系数构建目标网络,计算所述目标网络中每个节点的Q

value,获取训练后的参数,基于训练后的参数选拔均衡影响最大化的种子节点,完成社交网络均衡影响最大化。
[0009]可选地,所述实体相关性评估模块包括:向量化编码单元、激活概率预测单元和均衡暴露系数计算单元;
[0010]所述向量化编码单元,用于提取社交网络中用户的历史行为序列信息和两个目标实体的特征信息,对所述历史行为序列信息和特征信息进行向量化编码;
[0011]所述激活概率预测单元,用于根据编码后的向量,通过Bi

LSTM预测用户被两个目标实体激活的概率值;
[0012]所述均衡暴露系数计算单元,用于根据所述概率值,获取用户的均衡暴露系数。
[0013]可选地,所述向量化编码单元,对所述历史行为序列信息和特征信息进行向量化编码,分别获取特征向量和其中,d表示用户曾传播实体的数量,E是嵌入向量的维度大小,S
u
表示用户历史行为序列的嵌入向量,S
a
表示实体a的特征向量,S
b
表示实体b的特征向量,表示全体实数;
[0014]将S
a
和S
b
分别与S
u
进行特征融合,得到特征融合之后的向量和其中,S
x
表示用户历史行为序列和实体a融合之后的特征向量,S
y
表示用户历史行为序列和实体b融合之后的特征向量。
[0015]可选地,所述激活概率预测单元通过Bi

LSTM预测用户被两个目标实体激活的概率值包括:
[0016]设置和分别为嵌入向量S
x
和S
y
的第l个正向隐藏层表示,设置和分别为嵌入向量S
x
和S
y
的第l个反向隐藏层表示,并分别计算和
[0017][0018][0019]通过串联正向和反向的LSTM隐藏层表示,获取嵌入向量S
x
和S
y
的最终隐藏层表示,即和其中,d
l
为LSTM隐藏单元的两倍大小;
[0020][0021][0022]其中,为嵌入向量S
x
的最终隐藏层表示,为嵌入向量S
y
的最终隐藏层表示;
[0023]将Bi

LSTM的输出值经过Sigmoid函数,分别生成用户被目标实体a和b激活的概率
值和
[0024]可选地,所述均衡暴露系数计算单元中进行均衡暴露系数计算:令为节点v被目标实体a影响的概率,为节点v被目标实体b影响的概率,则节点v的均衡暴露系数为:
[0025][0026]其中,D
v
(a,b)表示用户v面对目标实体a和目标实体b的均衡暴露系数。
[0027]可选地,所述均衡种子节点选拔模块包括:目标网络嵌入单元、Q

value计算单元和节点选择单元;
[0028]所述目标网络嵌入单元,用于根据所述均衡暴露系数构建目标网络;
[0029]所述Q

value计算单元,用于通过深度学习方法计算所述目标网络中每个节点的Q

value,获取训练后的参数;
[0030]所述节点选择单元,用于基于训练后的参数,利用ε

greedy策略选拔均衡影响最大化的种子节点。
[0031]可选地,所述目标网络嵌入单元中根据所述均衡暴露系数构建目标网络包括:
[0032]基于所述均衡暴露系数,获取节点之间的均衡传播概率,并以所述均衡传播概率构建所述目标网络;
[0033]获取所述目标网络中每一个节点的拓扑信息并嵌入到特征向量中,通过迭代训练,获取每个节点的最终表示;
[0034]所述均衡传播概率为:
[0035][0036]其中,为均衡传播概率,w(u,v)为节点u对节点v的初本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的社交网络均衡影响最大化系统,其特征在于,包括:实体相关性评估模块和均衡种子节点选拔模块;所述实体相关性评估模块,用于提取社交网络中用户的历史行为序列信息和两个目标实体的特征信息,基于所述历史行为序列信息和特征信息进行向量化编码,获取用户的均衡暴露系数;所述均衡种子节点选拔模块,用于根据所述均衡暴露系数构建目标网络,计算所述目标网络中每个节点的Q

value,获取训练后的参数,基于训练后的参数选拔均衡影响最大化的种子节点,完成社交网络均衡影响最大化。2.根据权利要求1所述的基于深度强化学习的社交网络均衡影响最大化系统,其特征在于,所述实体相关性评估模块包括:向量化编码单元、激活概率预测单元和均衡暴露系数计算单元;所述向量化编码单元,用于提取社交网络中用户的历史行为序列信息和两个目标实体的特征信息,对所述历史行为序列信息和特征信息进行向量化编码;所述激活概率预测单元,用于根据编码后的向量,通过Bi

LSTM预测用户被两个目标实体激活的概率值;所述均衡暴露系数计算单元,用于根据所述概率值,获取用户的均衡暴露系数。3.根据权利要求2所述的基于深度强化学习的社交网络均衡影响最大化系统,其特征在于,所述向量化编码单元,对所述历史行为序列信息和特征信息进行向量化编码,分别获取特征向量和其中,d表示用户曾传播实体的数量,E是嵌入向量的维度大小,S
u
表示用户历史行为序列的嵌入向量,S
a
表示实体a的特征向量,S
b
表示实体b的特征向量,表示全体实数;将S
a
和S
b
分别与S
u
进行特征融合,得到特征融合之后的向量和其中,S
x
表示用户历史行为序列和实体a融合之后的特征向量,S
y
表示用户历史行为序列和实体b融合之后的特征向量。4.根据权利要求2所述的基于深度强化学习的社交网络均衡影响最大化系统,其特征在于,所述激活概率预测单元通过Bi

LSTM预测用户被两个目标实体激活的概率值包括:设置和分别为嵌入向量S
x
和S
y
的第l个正向隐藏层表示,设置和分别为嵌入向量S
x
和S
y
的第l个反向隐藏层表示,并分别计算和和和通过串联正向和反向的LSTM隐藏层表示,获取嵌入向量S
x
和S
y
的最终隐藏层表示,即和其中,d
l
为LSTM隐藏单元的两倍大小;
其中,为嵌入向量S
x
的最终隐藏层表示,为嵌入向量S
y
的最终隐藏层表示;将Bi

LSTM的输出值经过Sigmoid函数,分别生成用户被目标实体a和b激活的概率值和5.根据权利要求2所述的基于深度强化学习的社交网络均衡影响最大化系统,其特征在于,所述均衡暴露系数计算单元中进行均衡暴露系数计算:令为节点v被目标实体a影响的概率,为节点v被目标实体b影响的概率,则节点v的均衡暴露系数为:其中,D
v
(a,b)表示用户v面对目标实体a和目标实体b的均衡暴露系数。6.根据权利要求1所述的基于深度强化学习的社交网络均衡影响最大化系统,其特征在于,所述均衡种子节点选拔模块包括:目标网络嵌入单元、Q

value计算单元和节点选择单元;所述目标网络嵌入单元,用于根据所述均衡暴露系数构建目标网络;所述Q

value计算单元,用于通过深度学习方法计算所述目标网络中每个节点的Q

value,获取训练后的参数;所述节点选择单元,用于基于训练后的参数,利用ε

greedy策略选拔均衡影响最大化的种子节点。7.根据权利要求6所述的基于深度强化学习的社交网络均衡影响最大化系统,其特征在于,所述目标网络嵌入单元中根据所述均衡暴露系数构建目标网络包括:基于所述均衡暴露系数,获取节点之间的均衡传播概率,并以所述均衡传播概率构建所述目标网络;获取所述目标网络中每一个节点的拓扑信息并嵌入到特征向量中,通过迭代训练,获取每个节点的最终表示;所述均衡传播概率为:其中,为均衡传播概率,w(u,v)为节点u对节点v的初始影响权重,n
(1:t)
为用户v历史行为序列中的实体编号序列,r
(1:t)
为用户v历史行为序列中的实体评分序列,p(o
a
|n
(1:t)
,r
(1:t)
)和p(o
b
|n
(1:t)
,r
(1:t)
)分别表示用户v被目标实体a和目标实体b影响的条件概率,p(o
a
)和p(o
b
)分别表示用户v被目标实体a和目标实体b影响的独立概率,假设p(o
a
)和p(o
b
)都服从正态分布;每个节点的最终表示为:其中...

【专利技术属性】
技术研发人员:杨书新杜荃明
申请(专利权)人:江西理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1