一种基于多维度的网络空间人物画像方法技术

技术编号:35049595 阅读:25 留言:0更新日期:2022-09-28 10:47
本发明专利技术公开了一种基于多维度的网络空间人物画像方法,其步骤包括:1)构建网络空间的人物画像体系,所述人物画像体系包括人物的基本信息、个人经历、社交信息、用户标签和社会关系;2)对于一目标人物,爬取该目标人物的基本信息和社交信息计算该目标人物的社交影响指数;3)获取该目标人物的个人经历;4)利用该目标人物的年龄阶段、职业所涉及行业作为目标人物标记身份标签人物标记身份标签;5)根据该目标人物在社交媒体Twitter和微博中发布的消息数量,计算权重γ

【技术实现步骤摘要】
一种基于多维度的网络空间人物画像方法


[0001]本专利技术属于计算机领域,尤其涉及一种基于多维度的网络空间人物画像评估方法。

技术介绍

[0002]随着计算机技术快速发展,互联网服务广泛普及,使人类社会逐步进入到网络化时代。2020年9月,我国互联网信息中心发布了第46次《中国互联网络发展状况统计报告》,其内容显示我国的网民规模达到9.4亿,普及率达67.0%。随着网民数量的不断增长,各类网络论坛、微博平台等社交媒体日益发展成熟,成为继报纸、电视等传统媒体之后传递各类信息的主要载体。开展对互联网中重点关注人物的全方位画像分析,对维护社会的稳定具有重要的应用价值。
[0003]按照人物画像过程中人物数据和应用方向的不同,现有技术的人物画像可以划分为基于行为数据的画像、基于社交媒体的画像。
[0004]基于行为数据的画像,是将人物的行为作为描绘人物画像模型构建的依据。人物行为是指人物为满足特定的信息需求在信息行为中采取的各种动作和表现,研究主要包括人物的信息检索行为、信息浏览行为等,来源多为访问日志。研究学者们主要从人物的访问信息中挖掘出其行为的规律与特征,构建画像模型。根据画像模型,信息服务提供者可以预测人物的行动,实现精准信息服务的目的。但该类人物画像领域性较强,且数据较难获取。
[0005]基于社交媒体数据的画像,是将人物在社交网络中的言论和交互行为作为描绘画像模型构建的依据。社交网络中的人物由于评论、转发、点赞等行为在网络世界构建了各种各样的社会化联系,这种联系具有纽带的作用,增强了人与人之间的联系,且人物之间的联系具有实时性与动态性特征。目前,基于社交媒体数据的画像有两点:一是注重对人物社交媒体社会关系的描绘;二是注重人物数据的群体性特征,根据相似性等指标将人物划分为具有某一共同标签的群体。
[0006]人物画像是一个新兴的研究领域,国内外的学者们从模型构建、技术、应用领域等多个角度进行了研究和探讨,这些研究成果可以为后续人物画像及其应用的相关研究提供基础。但是,目前研究也有一定的局限性,人物画像构建的维度较为单一,目前关于人物画像的构建分别以人物的基本数据、兴趣数据、行为数据等为基础,人物画像过程中所获取的人物数据也多数为显性,针对内容、社会关系网络等存在大量隐性信息为依据的人物画像模型的研究还不够深入;针对同一人物在不同平台的信息行为、表现缺乏比较性的研究;针对同一人物在不同时间段信息行为的研究较为匮乏。
[0007]针对这一类问题,本专利技术将利用多源数据从人物的基本信息、社交信息、用户标签等多个方面进行全方位的网络空间画像。
[0008]在社交信息画像中,用户的影响力评估是描述人物的重要指标之一。传统研究方法中多考虑了用户关注关系和粉丝数量等,通常认为粉丝量大的用户影响力相对较大。但有研究学者在研究微博用户影响力时,把微博用户粉丝数量和微博转发数量进行对比,发
现粉丝数多的微博用户所发微博并不一定被其他用户转发,从而说明粉丝数量多的用户的影响力不一定会很大,这类方法没有综合考虑到用户与粉丝的互动行为。由此,一些研究方法引入了用户社交行为、言论传播情况能解决社交网络用户影响力问题,即通过分析用户发表言论以及粉丝互动、传播的情况进行影响力评估。基于以上调研,本专利技术将从人物自身属性和互动行为中综合分析人物影响力,以提升人物影响力计算的准确性。
[0009]人物的标签抽取常用的方法有基于TextRank算法和基于TF

IDF算法。TextRank算法是一种类似于PageRank算法的图模型算法,它把相关文本类比为一个由词语组成的网络,或者把文本看成一个由词语作为节点构成的图,词与词之间的语义关系组成边,通过分析此次与在图中的重要性,来筛选出用户的标签。TF

IDF算法是信息检索领域里面非常经典的算法,是计算词权重的公式,通过计算词语相对于人物相关文本的出现频率和区分程度,来筛选出人物标签。但是现有的人物标签提取,多应用于单一渠道的文本数据中,忽略了对多源数据的人物标签提取。由此,本专利技术利用TF

IDF算法,构建多源标签融合的人物兴趣标签提取方法。

技术实现思路

[0010]在网络空间人物画像方面,为解决人物画像维度不全面、人物数据采集渠道单一以及人物社交影响力计算不充分的问题,本专利技术提供了一种基于多维度的网络空间人物画像方法。利用从百科数据、新浪微博、Twitter以及LinkedIn采集的人物相关数据,从人物的基本信息、个人经历、社交信息、用户标签、社会关系五个维度对人物进行全方位的网络空间画像。
[0011]为实现上述目的,本专利技术的技术方案包括:
[0012]一种基于多维度的网络空间人物画像方法,其步骤包括:
[0013]1)构建网络空间的人物画像体系,具体画像属性如表1所示。
[0014]表1网络空间画像体系
[0015][0016][0017][0018]2)确定关注目标人物,从百度百科、维基百科爬取各目标人物基本信息和社交信息,包括姓名、别名、性别、国家、省份、城市、职业、单位、职务、出生日期、出生日期、个人描述、社交账号及关联人物信息。
[0019]3)依据目标人物的社交账号,从社交媒体采集人物的用户注册信息、关注与被关注信息、用户发布信息和关注粉丝信息,用于补充目标人物的社交信息,包括TwitterID、Twitter注册时间、Twitter用户粉丝数、Twitter用户朋友数、微博ID、微博注册时间、微博用户粉丝数、微博用户朋友数、微博是否认证。进一步的对于人物在Twitter和微博中的影响力计算并融合得到用户社交影响力,采用以下步骤:
[0020]3‑
1)计算用户发布的Tweet或微博(以下统称为消息)参与度1)计算用户发布的Tweet或微博(以下统称为消息)参与度其中n代表用户最近一段时间内发布的消息数量,SpreDegree
i
代表第i条消息的传播度,CoNum
i
代表第i条消息的评论数量,SuNum
i
代表第i条消息的点赞数量;
[0021]3‑
2)计算用户活跃粉丝数ActiveFan

,其中粉丝是否活跃由认证情况、近期动态评估得出;
[0022]3‑
3)计算用户可信度Reliability,其中可信度由目标人物在Twitter和微博中的社交信息(属于Twitter和微博中的属性信息),比如是否认证、是否为会员以及用户等级计算得出;
[0023]3‑
4)构建用户影响力层次框架,利用层次分析法计算用户消息参与度、活跃粉丝数、可信度这三类因素相对用户影响的权重,分别为w
par
,w
fan
,w
rel

[0024]3‑
5)计算用户在Twitter和微博的影响力Inflμencet∈{Twitter,weibo}=w
pa本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维度的网络空间人物画像方法,其步骤包括:1)构建网络空间的人物画像体系,所述人物画像体系包括人物的基本信息、个人经历、社交信息、用户标签和社会关系;2)对于一目标人物,从百度百科、维基百科爬取该目标人物的基本信息和社交信息;然后从社交信息中获取该目标人物的社交账号和关联人物,并根据社交账号从社交媒体采集该目标人物的用户注册信息、关注与被关注信息、用户发布信息和关注粉丝信息,用于补充该目标人物的社交信息;然后根据该目标人物在社交账号中的相关信息计算该目标人物的社交影响指数;3)依据该目标人物的姓名、所在单位搜集人物简历,获取该目标人物的个人经历;4)利用该目标人物的年龄阶段、职业所涉及行业作为目标人物标记身份标签;5)根据该目标人物在社交媒体Twitter中发布的消息数量,计算社交媒体Twitter相对于该目标人物的权重γ
Twitter
,并计算该目标人物在社交媒体Twitter中发布的消息中词语的TF

IDF值,选取TF

IDF值靠前的N个词语Twitter_Words(w1,w2,

,w
N
),然后将所选N个词语的TF

IDF值与权重γ
Twitter
相乘,得到更新后的词语TF

IDF值;6)根据该目标人物在微博中发布的消息数量,计算微博相对于该目标人物的权重γ
Weibo
,并计算该目标人物在微博中发布的消息中词语的TF

IDF值,选取TF

IDF值靠前的N个词语Weibo_Words(w1,w2,

,w
N
);然后将所选N个词语的TF

IDF值与权重γ
Weibo
相乘,得到更新后的词语TF

IDF值;7)根据步骤5)、6)所得更新后的词语TF

IDF值对词语进行排序,选取TF

IDF值靠前若干词语作为该目标人物的兴趣标签。2.如权利要求1所述的方法,其特征在于,计算该目标人物的用户社交影响力的方法为:2

1)根据该目标人物的社交信息计算用户消息参与度其中n代表该目标人物最近一段时间T内发布的消息数量,SpreDegree
i
代表第i条消息的传播度,CoNum
i
代表第i条消息的评论数量,SuNum
i
代表第i条消息的点赞数量;2

2)计算该目标人物的粉丝的认证情况和最新动态评估得出该目标人物的活跃粉丝数ActiveFan

;2

3)根据该目标人物在Twitter和微博中的属性信息计算得出该目标人物的用户可信度Reliability;2

4)利用层次分析法计算该目标人物的用户消息参与度Participation、活跃粉丝数ActiveFan

、可信度Reliability相对用户影响的权重,分别为w
par
,w
fan
,w
rel
;2

5)计算该目标人物的在Twitter、微博的影响力Influence
t∈{Twitter,Weibo}
=w
par
×
Participation+w
fan
×
ActiveFan

+w
rel
×
Reliability;2

6)基于D

S理论构建用户社交影响指数评估框架,将该目标人物在Twitter和微博中的影响力分别做归一化处理后作为用户社交影响指数评估框架的基本信任分配;2

...

【专利技术属性】
技术研发人员:彭媛媛张海霞连一峰黄克振刘倩
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1