当前位置: 首页 > 专利查询>东南大学专利>正文

一种匿名环境中的网络用户舆论画像构建方法技术

技术编号:38458681 阅读:8 留言:0更新日期:2023-08-11 14:35
本发明专利技术公开了一种匿名环境中的网络用户舆论画像构建方法,包括:实匿名用户特征获取,实匿名用户等价类构建,新用户画像识别。本发明专利技术通过建立一种等价关系、构建等价类来约简用户画像空间,解决了匿名环境下大量冗余匿名用户画像占用画像库、画像搜索效率低的问题,从而用较小的空间代价实现新用户画像的快速匹配,能高效地为实匿名用户评论构造可信度标签,为舆论治理提供辅助。为舆论治理提供辅助。为舆论治理提供辅助。

【技术实现步骤摘要】
一种匿名环境中的网络用户舆论画像构建方法


[0001]本专利技术属于网络空间安全领域,涉及一种匿名环境中的网络用户舆论画像构建方法。

技术介绍

[0002]社交网络平台等各类社交媒体凭借着其信息传播速度快、分享范围广、时效性强以及交互性好等特点快速渗入了人们生活,吸引了数以亿计的用户。为了保护用户隐私,匿名功能成为了用户对于敏感话题发表言论的重要途径。但是匿名功能也给网络舆论的治理带来了困难,一个用户能够发布多条匿名言论,这些匿名言论难以溯源至同一用户,因此使用传统舆论画像构建方法会引起画像库规模剧烈膨胀。同时,由于网络舆论具有动态性、实时性,用户画像的产生速度决定了舆论监管者能否及时对话题下的新用户进行评估,而在用户数量巨大的热点话题下,频繁进行用户画像重构成本过高,且时效性不足;由于冗余匿名用户画像导致画像库规模膨胀,通过画像库匹配快速构建画像同样效率不高。此外,恶意利用匿名功能可以达到网络水军的效果,对舆论产生严重的负面导向,在关键时机利用匿名功能结合网络水军能够形成一种舆论攻击,打击目标舆论形象,干扰目标的正常行动。

技术实现思路

[0003]为解决上述问题,本专利技术提出了一种以等价类方法为核心,从“人以群分”的思想入手,提出了一种基于标签的等价类构建方法,在匿名环境中构建用户舆论画像,实现对海量用户画像的约简,并提高新用户画像构建的效率,从而为网络舆情治理的决策提供有力的数据支持。
[0004]为了达到上述目的,本专利技术提供如下技术方案:
[0005]一种匿名环境中的网络用户舆论画像构建方法,包括如下步骤:
[0006]步骤1:实匿名用户特征获取;
[0007]步骤2:实匿名用户等价类构建;
[0008]步骤3:新用户画像识别。
[0009]进一步地,所述步骤1具体包括如下子步骤:
[0010](1)对话题下匿名用户,其特征为向量C
A
=C1,其中C1:=(a1,a2,a3,a4,a5,L1),a1指评论IP是否与话题所在地一致;a2是评论时间和话题出现时间的差值;a3是用户情绪,分为激进和保守;a4是发言立场,分为支持和反对;a5指设置关键词表进行文本匹配,特征值为评论文本是否命中关键词;L1是评论标签,根据文本内容与典型恶意评论列表进行匹配,分为正常和恶意;
[0011](2)对话题下实名用户,其特征为三元组C
R
=(C1,C2,C3),其中C2:=(b1,b2,b3,b4,b5,b6,b7),b1表示用户是否可能使用代理,b2表示用户关注数量,b3表示粉丝数,b4表示被点赞数,b5表示被收藏数,b6表示被喜爱数,b7表示用户发表的相关历史评论数;其中
该矩阵元素a
nk
表示实名用户第n条相关历史评论的第k个特征,其提取方法与C1的第k个特征一致;L
n1
是第n条相关历史评论的标签。
[0012]进一步地,所述步骤2具体包括如下子步骤:
[0013]步骤2.1:用户向量化特征点集构建;
[0014]步骤2.2:用户间等价关系描述;
[0015]步骤2.3:用户等价类构建;
[0016]步骤2.4:用户画像空间约简。
[0017]进一步地,所述步骤2.1包括如下过程:
[0018]构造Set={c
A1
,c
A2


,c
Ak
,c
R1
,c
R2


,c
Rr
},其中对于第k个匿名用户,根据C
A
,c
Ak
=(a1,a2,a3,a4,a5),L
Ak
=L1;对于第r个实名用户,从C
R
的元组C1提取特征c
Rr
=(a1,a2,a3,a4,a5),L
Rr
=L1;所有二元特征均量化为0和1,a2以天为单位并进行归一化。
[0019]进一步地,所述步骤2.3包括如下过程:
[0020](1)输入等价中心个数K,从Set选择一个特征点作为初始中心Z1,不断选择与已选中心最小距离最大的点作为Z
i
,直至选择K个初始中心;
[0021](2)从特征点集Set中选择一个未加入等价类的点c,若min{||c

Z
i
(k)||,i=1,2,

,K}=||c

Z
j
(k)||,则c∈S
j
(k);其中j为等价类号,k为迭代次数号;
[0022](3)计算其中c
i
是标签L=0对应的点,c
j
是标签L=1对应的点,m和n分别是L=0和1的点的数量,α和β满足条件:α>>β;
[0023](4)重新执行(2)和(3),直至Z
j
(k+1)=Z
j
(k);
[0024](5)计算等价类S
j
的类标签其中m和n分别是L=0和1的点的数量,α和β满足条件:α>>β;
[0025](6)输出等价类S1,S2…
S
j
、等价中心Z1,Z2,

,Z
j
和类标签
[0026]进一步地,所述步骤2.4包括如下过程:
[0027]若匿名用户点c
A
∈S
j
,则约简至同一匿名画像P
Aj
,包括评论偏好向量M和用户可信度T,其中M=Z
j
,分别表示等价类特征和等价类标签;匿名用户画像空间约简为K个画像的集合;若实名用户点c
R
∈S
j
,且特征矩阵C3不为空则进行特征修正得到独立用户画像P
R
,包括评论偏好向量M
R
、用户可信度T
R
和影响力特征C2,其中,M
R
和T
R
的计算方法如下:
[0028](1)根据C3,令c
i
=(a
i1
,a
i2
,a
i3
,a
i4
,a
i5
),1≤i≤n;计算),1≤i≤n;计算其中L
i1
为第i条相关历史评论的标签,α
i
、β
i
满足条件满足条件
[0029](2)计算其中c=Z
j
,p为c的向量长度,为评论标签;
[0030](3)计算M
R
=JG1+(1

J)G2,其中
[0031](4)计算
[0032]若特征矩阵C3为空,则约简至同一实名画像P
Rj
,包括评论偏好向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种匿名环境中的网络用户舆论画像构建方法,其特征在于,包括如下步骤:步骤1:实匿名用户特征获取;步骤2:实匿名用户等价类构建;步骤3:新用户画像识别。2.根据权利要求1所述的匿名环境中的网络用户舆论画像构建方法,其特征在于,所述步骤1具体包括如下子步骤:(1)对话题下匿名用户,其特征为向量C
A
=C1,其中C1:=(a1,a2,a3,a4,a5,L1),a1指评论IP是否与话题所在地一致;a2是评论时间和话题出现时间的差值;a3是用户情绪,分为激进和保守;a4是发言立场,分为支持和反对;a5指设置关键词表进行文本匹配,特征值为评论文本是否命中关键词;L1是评论标签,根据文本内容与典型恶意评论列表进行匹配,分为正常和恶意;(2)对话题下实名用户,其特征为三元组C
R
=(C1,C2,C3),其中C2:=(b1,b2,b3,b4,b5,b6,b7),b1表示用户是否可能使用代理,b2表示用户关注数量,b3表示粉丝数,b4表示被点赞数,b5表示被收藏数,b6表示被喜爱数,b7表示用户发表的相关历史评论数;其中该矩阵元素a
nk
表示实名用户第n条相关历史评论的第k个特征,其提取方法与C1的第k个特征一致;L
n1
是第n条相关历史评论的标签。3.根据权利要求1所述的匿名环境中的网络用户舆论画像构建方法,其特征在于,所述步骤2具体包括如下子步骤:步骤2.1:用户向量化特征点集构建;步骤2.2:用户间等价关系描述;步骤2.3:用户等价类构建;步骤2.4:用户画像空间约简。4.根据权利要求3所述的匿名环境中的网络用户舆论画像构建方法,其特征在于,所述步骤2.1包括如下过程:构造Set={c
A1
,c
A2
,

,c
Ak
,c
R1
,c
R2
,

,c
Rr
},其中对于第k个匿名用户,根据C
A
,c
Ak
=(a1,a2,a3,a4,a5),L
Ak
=L1;对于第r个实名用户,从C
R
的元组C1提取特征c
Rr
=(a1,a2,a3,a4,a5),L
Rr
=L1;所有二元特征均量化为0和1,a2以天为单位并进行归一化。5.根据权利要求3所述的匿名环境中的网络用户舆论画像构建方法,其特征在于,所述步骤2.3包括如下过程:(1)输入等价中心个数K,从Set选择一个特征点作为初始中心Z1,不断选择与已选中心最小距离最大的点作为Z
i
,直至选择K个初始中心;(2)从特征点集Set中选择一个未加入等价类的点c,若min{||c

Z
i
(k)||,i=1,2,

,K}=||c

Z
j
(k)||,则c∈S
j
(k);其中j为等价类号,k为迭代次数号;(3)计算其中c
i
是标签L=0对应的点,c
j
是标签L=1对应的点,m和n分别是L=0和1的点的数量,α和β满足条件:α>>β;(4)重新执行(2)和(3),直至Z
j
(k+1)=Z
j
(k);
(5)计算等价类S
j
的类标签其中m和n分别是L=0和1的点的数量,α和β满足条件:α>>β;(6)输出等价类S1,S2…
S
j
、等价中心Z1,Z2,

,Z
j
和类标签6.根据权利要求3所述的匿名环境中的网络用户舆论画像构建方法,其特征在于,所述步骤2.4包括如下过程:若匿名用户点c
A
∈S
j
,则约简至同一匿名画像P
Aj
,包括评论偏好向量M和用户可信度T,其中M=Z
j
,分别表示等价类特征和等价类标签;匿名用户画像空间约简为K个画像的集合;若实名用户点c
R
∈S
j
,且特征矩阵C3不为空则进行特征修正得到独立用户画像P
R
,包括评论偏好向量M
R
、用户可信度T
R
和影响力特征C2,其中,M
R
和T
R
的计算方法如下:(1)根据C3,令c
i
=(a
i1
,a
...

【专利技术属性】
技术研发人员:施家栋刘文璞郝德宇王良民费越
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1