基于事件检测的微博网络情感社区识别方法技术

技术编号:22330237 阅读:89 留言:0更新日期:2019-10-19 12:18
本发明专利技术是基于事件检测的微博网络情感社区识别方法。本发明专利技术基于Python爬虫爬取微博网络用语的数据,提取微博网络中的社会热点事件,构造事件热点评估函数;度量微博用户对社会热点事件的情感极性,生成微博用户对多个社会热点事件的情感极性标签;初始化微博用户的情感极性标签,构造社区标签更新迭代规则,直至标签收敛时终止循环,将具有相同标签的节点划分到同一社区。本发明专利技术解决目前社区识别算法无法刻画用户的情感倾向性,导致输出的社区结果内聚性较低、稳定性不足,在网络演化过程中容易引发社区分裂的问题。本发明专利技术保证了输出的社区结果具有较高的内聚性及稳定性,对网络演化产生的网络结构及属性改变具有较高的适应性。

Recognition method of micro blog network emotional community based on event detection

【技术实现步骤摘要】
基于事件检测的微博网络情感社区识别方法
本专利技术涉及微博事件检测
,是一种基于事件检测的微博网络情感社区识别方法。
技术介绍
社交网络是指由节点和链接组成的复杂结构,其中,节点表示个人或组织,链接表示节点和节点之间的关系,例如:朋友关系,亲戚关系,同事关系以及科研领域的合作关系等。从不同的结构粒度来看,社交网络分析方法大致可分为三类:宏观层面,研究社交网络的相关指标及模型;微观层面,研究社交网络的个体影响力及传播动力学原理;中观层面,研究社交个体的群聚特征,其中最具代表性的就是社区结构。所谓社区,是指网络中的密集群体,同一社区内的节点间的链接相对紧密,不同社区之间的节点的链接相对稀疏。通常,社区内的节点具有相似的兴趣爱好或其他属性,在网络中起同步效应。社区发现可以识别网络中的功能模块,有助于人们更加深入的理解网络的本质。社区识别研究根据所用方法的不同,大致可分为五类:(1)层次聚类分析方法。这类方法通过计算网络中节点之间的相似度,合并相似度高的节点为同一社区。聚类过程以树的形式展示,通过模块度函数衡量划分结果,从而获得最优的社区;(2)矩阵谱分析方法。通过对网络的邻接矩阵施以谱分析等矩阵计算方法来发现社区;(3)基于链接的分析方法,以网络中的链接为基本单位进行社区识别;(4)基于图论的方法。运用极大团、极大连通子图等识别社区;(5)语义社区识别方法。通过对社交网络用户发表文本信息加以分析,将具有主题相似性的用户聚合成同一社区。现有方法存在的问题在于:只考虑了社交网络的结构特性及文本相似性,忽略了网络用户的情感倾向性。社交网络发展至今,微博等社交媒体早已融入人们的日常生活和工作当中,在微博网络上,人们喜欢对微博上获取的消息加以评论,发表自己的观点与见解,并对社会事件表达情感倾向。因此,合理的社区结构应该对某类社会事件具有相近的社会认知。而现有方法以链接关系、链接程度以及主题相似性等指标作为社区的生成标准会增加社区的分裂风险,社区稳定性略显不足。
技术实现思路
本专利技术为解决目前社区识别算法无法刻画用户的情感倾向性,导致输出的社区结果内聚性较低、稳定性不足,在网络演化过程中容易引发社区分裂这一问题,本专利技术提供了一种基于事件检测的微博网络情感社区识别方法,本专利技术提供了以下技术方案:一种基于事件检测的微博网络情感社区识别方法,包括如下步骤:步骤一:基于Python爬虫爬取微博网络用语的数据,对微博网络数据进行初始化;步骤二:提取微博网络中的社会热点事件,构造事件热点评估函数;步骤三:度量微博用户对社会热点事件的情感极性,生成微博用户对多个社会热点事件的情感极性标签;步骤四:初始化微博用户的情感极性标签,构造社区标签更新迭代规则,直至标签收敛时终止循环,将具有相同标签的节点划分到同一社区。优选地,所述步骤一具体为:第一步:采用Python爬虫向上广度优先搜索策略,爬取微博社交网络用户的用语数据,通过下式表示所述微博网络用语数据:Di={Li,Fi,Ri,Ci,Ti}(1)其中,Di为微博帖子i的网络用语数据,Li为微博帖子i的文本,Fi为微博帖子i的发帖者的粉丝数量,Ri为微博帖子i的转发次数,Ci为微博帖子i的评论次数,Ti为微博帖子i的发布时间,i表示为微博帖子;第二步:初始化微博网络用语数据,并将所述初始化的数据存于MySQL数据库。优选地,所述步骤二具体为:第一步:采用TF-IDF方法计算词汇η在微博网络用语数据中的权重,通过下式计算词汇n的权重:其中,为词汇η的权重,为词汇η在Di中出现的频率,dfη为词汇η在滑动窗口中所有帖子中出现的次数,N为爬取到的微博帖子总数;第二步:以词汇η的权重为基础,构造度量微博帖子间相关程度的余弦相似表达式以为优化函数,采用k-Medoide算法将词汇一致的微博帖子聚合成同一个群组,迭代生成事件集合C,通过下式表示所述表达式ρi,C:C={c1,c2,...,ck}(3)其中,C为迭代生成的事件集合,ck为第k个微博事件,为度量微博帖子间相关程度的余弦相似表达式,以及|wC|分别为Di内词汇以及事件集合C内词汇的TF-IDF权重集合;第三步:构造社会热点事件评估函数δHOT,筛选处关注度高的m个社会热点事件,通过下式表示δHOT:其中,δHOT为社会热点事件评估函数,Nc为事件集合C中的帖子总数;第四步:对筛选处的m个社会热点事件进行排序,得到m个社会热点事件集合,通过下式表示m个社会热点事件集合:CIM={c1,c2,...,cm}(6)其中,CIM为m个社会热点事件集合,cm为第m个社会热点事件。优选地,通过δHOT统计粉丝的有效回应,所述δHOT取值范围为[0,1]。优选地,所述步骤三具体为:第一步:利用ICTCLAS分词系统对微博网络用语数据进行分词;第二步:基于HowNet情感词典完成词语级情感极性分析,对未出现在情感词典中的网络词汇ηnew,建立词语级相似性度量函数,通过函数判断ηnew与HowNet情感词典已有的词汇ηhow相似程度,通过下式表示词语级相似性度量函数:其中,S(ηnew,ηhow)为词语级相似性度量函数,|ηnew|以及|ηhow|分别为词汇ηnew以及ηhow在爬取数据时出现次数;第三步:计算用户u对m个社会热点事件发表言论的情感极性,生成微博用户u对m个社会热点事件的情感极性标签,通过下式表示所述情感极性标签:其中,U为微博用户u对m个社会热点事件的情感极性标签,为微博用户u对第m个社会热点事件发表言论极性总体的加权平均。优选地,所述步骤四具体为:第一步:初始化微博用户对社会热点事件的情感极性标签,每个微博用户包含一个特征向量,通过下式表示特征向量:vecu=(lu,bu)(9)其中,vecu为微博用户u的特征向量,lu为微博用户u的社区标签集合,bu为微博用户u对社区的归属程度;初始化所述征向量时,得到vecu=(u,1),归属程度为1;第二步:微博用户向邻居用户传递一次特征向量,构造社区标签更新迭代规则,所述规则具体为:当微博用户收到邻居用户传来的特征向量时,微博用户将收到的特征进行更改,通过下式进行更改:其中,τ(u)为微博用户u的邻居集合,v为微博用户u的邻居用户,vecv∈τ(u)为所述邻居用户v的特征向量,lv为邻居用户v的社区标签集合,b′v为邻居用户v对社区的归属程度;U和V分别代表微博用户u以及邻居用户v的情感极性标签集合,MIC(U,V)为微博用户u与邻居用户v之间情感极性标签的最大互信息系数,通过下式计算MIC(U,V):其中,I[U;V]为U和V之间的互信息;当对微博用户u的任意一邻居x,x∈τ(u),以及所有收到的任意特征向量vec′x∈τ(u)=(lx,b′x),lx为任意一邻居x的社区标签集合,b′x为任意一邻居x对社区的归属程度,选择b′x最大的邻居所持有的社区标签作为基准社区标签,则用户u加入基准社区标签所代表的社区;当对于基准社区标签之外的社区标签ly时,y∈τ(u),满足y归属程度不是最大的,当y的邻居同时包括y自身对ly的隶属度的为最大值时,所述隶属度的最大值再加上除ly的隶属度最大值外的隶属度之和再与u的邻居数的作商;当所述作商的结果大于b′x,则将u加入y所在社区;第三步:重复第二本文档来自技高网
...

【技术保护点】
1.一种基于事件检测的微博网络情感社区识别方法,其特征是:包括如下步骤:步骤一:基于Python爬虫爬取微博网络用语的数据,对微博网络数据进行初始化;步骤二:提取微博网络中的社会热点事件,构造事件热点评估函数;步骤三:度量微博用户对社会热点事件的情感极性,生成微博用户对多个社会热点事件的情感极性标签;步骤四:初始化微博用户的情感极性标签,构造社区标签更新迭代规则,直至标签收敛时终止循环,将具有相同标签的节点划分到同一社区。

【技术特征摘要】
1.一种基于事件检测的微博网络情感社区识别方法,其特征是:包括如下步骤:步骤一:基于Python爬虫爬取微博网络用语的数据,对微博网络数据进行初始化;步骤二:提取微博网络中的社会热点事件,构造事件热点评估函数;步骤三:度量微博用户对社会热点事件的情感极性,生成微博用户对多个社会热点事件的情感极性标签;步骤四:初始化微博用户的情感极性标签,构造社区标签更新迭代规则,直至标签收敛时终止循环,将具有相同标签的节点划分到同一社区。2.根据权利要求1所述的一种基于事件检测的微博网络情感社区识别方法,其特征是:所述步骤一具体为:第一步:采用Python爬虫向上广度优先搜索策略,爬取微博社交网络用户的用语数据,通过下式表示所述微博网络用语数据:Di={Li,Fi,Ri,Ci,Ti}(1)其中,Di为微博帖子i的网络用语数据,Li为微博帖子i的文本,Fi为微博帖子i的发帖者的粉丝数量,Ri为微博帖子i的转发次数,Ci为微博帖子i的评论次数,Ti为微博帖子i的发布时间,i表示为微博帖子;第二步:初始化微博网络用语数据,并将所述初始化的数据存于MySQL数据库。3.根据权利要求1所述的一种基于事件检测的微博网络情感社区识别方法,其特征是:所述步骤二具体为:第一步:采用TF-IDF方法计算词汇η在微博网络用语数据中的权重,通过下式计算词汇n的权重:其中,为词汇η的权重,为词汇η在Di中出现的频率,dfη为词汇η在滑动窗口中所有帖子中出现的次数,N为爬取到的微博帖子总数;第二步:以词汇η的权重为基础,构造度量微博帖子间相关程度的余弦相似表达式以为优化函数,采用k-Medoide算法将词汇一致的微博帖子聚合成同一个群组,迭代生成事件集合C,通过下式表示所述表达式ρi,C:C={c1,c2,...,ck}(3)其中,C为迭代生成的事件集合,ck为第k个微博事件,为度量微博帖子间相关程度的余弦相似表达式,以及|wC|分别为Di内词汇以及事件集合C内词汇的TF-IDF权重集合;第三步:构造社会热点事件评估函数δHOT,筛选处关注度高的m个社会热点事件,通过下式表示δHOT:其中,δHOT为社会热点事件评估函数,Nc为事件集合C中的帖子总数;第四步:对筛选处的m个社会热点事件进行排序,得到m个社会热点事件集合,通过下式表示m个社会热点事件集合:CIM={c1,c2,...,cm}(6)其中,CIM为m个社会热点事件集合,cm为第m个社会热点事件。4.根据权利要求3所述的一种基于事件检测的微博网络情感社区识别方法,其特征是:通过δHOT统计粉丝的有效回应,所述δHOT取值范围为[0,1]。5.根据权利要求1所述的一种基于事件检测的微博网络情感社区识别方法,其特征...

【专利技术属性】
技术研发人员:杨海陆陈德运王莉莉王亮
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1