一种基于弱监督增强的社交网络用户地域识别方法技术

技术编号:30375521 阅读:62 留言:0更新日期:2021-10-16 18:04
本发明专利技术公开了一种基于弱监督增强的社交网络用户地域识别方法,该方法包括如下步骤:步骤1.从原始社交网络用户数据集中筛选出地域标签已知的用户数据集,形成初始训练数据集;步骤2.抽取用户社交关系特征、推文内容特征和静态属性特征;步骤3.利用深层神经网络融合多维特征构建用户地域识别模型;步骤4.对构建的用户地域识别模型进行训练,得到训练后的用户地域识别模型;步骤5.基于弱监督学习强化用户地域识别模型;步骤6.针对社交网络中的目标用户,利用训练好的用户地域识别模型预测用户的地域标签。本发明专利技术克服了社交网络中用户地域标签的稀疏性问题,能够有效地识别社交网络用户关联的地理区域。用户关联的地理区域。用户关联的地理区域。

【技术实现步骤摘要】
一种基于弱监督增强的社交网络用户地域识别方法


[0001]本专利技术涉及一种基于弱监督增强的社交网络用户地域识别方法。

技术介绍

[0002]社交网络将不同地域的用户紧密联系在一起,现实社会中的热点事件经过社交网络的发酵和用户的传播,具有强大的渗透力、扩散力与影响力。由于社交网络中参与热点事件讨论的用户身份错综复杂,不同地域的用户关注事件的焦点与看待事件的观点不同,因此,不同地域用户的行为与观点互动,容易驱动事件发生快速演化,进而引发网络用户行为态势漂移动荡,反过来对线下事件的发展形成舆论压力,最终容易引起社会风险。
[0003]基于此,针对社交网络中参与热点事件讨论的用户群体,准确判断每名用户相关联的地域对于感知事件态势,调控事件演化趋势,进而维护网络空间安全至关重要。由于大部分用户在社交网络中不会显式公开与自己相关的地域(如家乡所在地、大学所在地、工作所在地等),需要对社交网络用户地域标签进行识别,以确定用户关联的地域。当前用户地域识别方法包括基于文本内容特征的方法、基于用户网络特征的方法以及基于多维特征融合的方法。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于弱监督增强的社交网络用户地域识别方法,其特征在于,包括如下步骤:步骤1. 首先从原始社交网络用户数据集中筛选出地域标签已知的用户数据集,并将筛选出的地域标签已知的用户数据集,作为初始训练数据集;步骤2. 抽取用户社交关系特征、用户推文内容特征以及用户静态属性特征;步骤3. 利用深层神经网络融合步骤2抽取的用户社交关系特征、用户推文内容特征以及用户静态属性特征,构建用户地域识别模型;步骤4. 对构建的用户地域识别模型进行训练,得到训练后的用户地域识别模型;步骤5. 对于原始社交网络用户数据集中地域标签未知的用户,首先基于步骤2抽取地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征;然后将地域标签未知的用户的社交关系特征、推文内容特征以及静态属性特征输入到步骤4训练后的用户地域识别模型中,得到地域标签未知的用户的地域标签分布;预设置信度,按照预设的置信度筛选出带有可信地域标签的用户,并将筛选出的带有可信地域标签的用户加入到初始训练数据集中,形成新的训练数据集;新的训练数据集中用户的社交关系特征、推文内容特征和静态属性特征均已知;返回步骤3进行迭代,直到原始社交网络用户数据集中所有用户均被用于用户地域识别模型的训练或者用户地域识别模型的准确度不再变化时,迭代停止;将最后一次迭代时训练好的用户地域识别模型,作为最终的用户地域识别模型;步骤6. 针对社交网络中的任意目标用户,将目标用户的社交关系特征、推文内容特征以及静态属性特征作输入到最终的用户地域识别模型中,得到目标用户的地域标签分布。2.根据权利要求1所述的基于弱监督增强的社交网络用户地域识别方法,其特征在于,所述步骤1中,依据用户发布的推文内容、推文附带的地理位置标记和用户静态属性中的城市信息,从原始社交网络用户数据集中筛选出地域标签已知的用户数据集。3.根据权利要求1所述的基于弱监督增强的社交网络用户地域识别方法,其特征在于,所述步骤2中,用户社交关系特征的抽取过程如下:首先构建一种三视图用户社交关系网络,每一个视图包含相同的用户节点和不同的关系边,依次为关注关系边、转发关系边和评论关系边;定义三个视图分别为关注视图G
F
、转发视图G
R
和评论视图G
C
;采用结构化深度嵌入表示方法从用户u
i
的社交关系中抽取用户u
i
的社交关系特征,分别获得关注视图G
F
、转发视图G
R
和评论视图G
C
的网络嵌入表示矩阵X
F
、X
R
和X
C
;其中,X
F
、X
R
、X
C
∈R
N
×
d
,R
N
×
d
表示N
×
d维矩阵;N表示初始训练数据集中用户的数量,d表示网络嵌入表示的维度;基于获取到的三个视图中用户u
i
的网络嵌入表示,采用注意力机制学习三个视图的权重并按照权重进行加权求和,从而获取用户u
i
的社交关系特征;利用注意力机制计算用户u
i
在第k个视图下的注意力权重λ
ik
的方法如下:;其中,x
ik
∈R
d
表示用户u
i
在第k个视图下的网络嵌入表示,k∈{1,2,3},z∈R
d
表示需要
学习的d维参数向量,R
d
表示d维向量;基于用户u
i
在第k个视图下的注意力权重λ
ik
,依据权重进行加权求和,获得用户u
i
的社交关系特征S
i
,计算方法如下:;其中,S
i
∈R
d
表示用户u
i
的社交关系特征。4.根据权利要求1所述的基于弱监督增强的社交网络用户地域识别方法,其特征在于,所述步骤2中,用户推文内容特征的抽取过程如下:采用两层注意力机制抽取用户推文中的地理关联信息,其中:1). 在单词层面上,利用BERT预训练词向量库获得用户推文中每个单词的向量表示;设用户u
i
的第m条推文共包含L个单词,词向量依次为{W
m1
,W
m2
,

,W
mL
};其中,W
mj
∈R
d
表示第m条推文第j个单词的d维向量表示;将词向量按次序输入双向长短时记忆循环神经网络,分别获得L个单词的隐含向量表示{h
m1
, h
m2
,

, h
mL
},其中,h
mj
∈R
d
表示第m条推文第j个单词的d维隐含向量表示;采用注意力机制学习第m条推文第j个单词的权重α
mj
,计算方法如下:;其中,p∈R
d
表示需要学习的d维参数向量;基于计算得到的每个单词的权重,依据权重进行加权求和获得第m条推文的嵌入表示x
m
,计算方法如下:;其中,x
m
∈R
d
表示第m条推文的嵌入表示,R
d
表示d维向量;2). 在句子层面上,设用户u
i
共发表T条推文,推文的嵌...

【专利技术属性】
技术研发人员:胥帅
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1