微博媒体中的意见领袖识别方法技术

技术编号:8801130 阅读:218 留言:1更新日期:2013-06-13 05:48
本发明专利技术公开了一种微博媒体中的意见领袖识别方法,包括网络意见收集,标准样本库标注,意见个体活跃度的分析,意见个体受关注度的分析,意见个体发文认同度的分析,意见领袖的分析和识别等六个步骤。本发明专利技术通过收集网络意见,对其进行意见个体活跃度、意见个体关注度、意见个体认同度三个方面的分析计算,以此为基础进行意见领袖的综合分析和识别。

【技术实现步骤摘要】

本专利技术涉及一种。
技术介绍
进入20世纪,WEB2.0的发展促生了大量的网络社区和微博这一新生代的信息交流平台,人们可以在不同社区和微博平台内交流信息和传播思想。在网络社区中同样存在领域意见领袖,这些意见领袖在某种程度上影响着人们的购买行为、政治观点。很多人开始研究信息传播最大化问题,也就是如何从社会网络中选取一部分个体进行信息传播,以最大化信息的传播。意见领袖在信息传播和在市场营销等等其他各个方面的应用有很大的影响。越来越多的人想从意见领袖角度去影响和促进信息的传播和扩大某一方面的或某一信息的影响力。在目前网络,一方面微博大部分采用实名认证机制,可以对意见领袖的特征进行分析;另一方面微博海量的数据为我们的研究提供了真实的历史数据,这些数据包括用户的个人信息以及用户在微博中的交互记录,这些海量的数据以及用户的资料是研究的一个重要的信息依据。目前主要的一些识别技术对微博用户影响力进行了定义,不同的研究思路有不同衡量标准,有的使用粉丝数量和微博转发数量对用户影响力进行了衡量,结果表明粉丝数量多的用户微博不一定会得到很多的转发或者评论,有的是给定一个主题,用户的影响力定义为他的所有粉丝的影响力之和,还有一部分和本专利技术比较相近的是以入度、转发数、提及数三项为影响力标准现有技术的缺点如下:I)在统计微博用户信息数据的时候,没有针对微博用户的发表的言论的时间做深入的分析,但其发文频率也是评价一个用户的活跃度的标准,活跃度也是意见领袖识别的一个重要因素,因而影响了识别的可靠性。2)在以转发、提及数为标准的时候,将所有的评论信息都当作单一的信息对象处理,这样极大的混淆了信息的质量。意见领袖的影响力从客观的角度是可分成两方面的,一种是积极的正面影响,另一种是消极的负面影响。研究评论应该深入的分析评论的正负性以判断其可靠性和其影响趋势。如果未能全面的处理将影响意见领袖的判断。
技术实现思路
本专利技术要解决的技术问题是提供一种从微博中准确完善的分析用户并快速准确的找出意见领袖的识别方法。为了解决上述技术问题,本专利技术采用的技术方案是:,包括以下步骤:一、网络意见收集:网络意见的收集是通过微博平台用户发表的言论,通过网络的合法的收集下载,下载大量的微博发文及其评论信息,并针对相关的话题比较活跃的进行跟踪的下载,将所有的发文按照用户分类进行抽取、统计以提供各方面的分析;二、标准样本库标注选取一段时间内,有发言的微博作者,由相关的意见领袖识别专家对该作者进行手工标注,给出是否为意见领袖的判定,并从中选取一定量的微博作者放入标准样本数据库;该样本数据将作为后续意见领袖判定的标注样本集合;具体选取方法和选取数量请见具体实施方式;三、意见个体活跃度:I)个体活跃度由三个方面构成,包括,某一段相关话题比较活跃的时间内,该作者平均每天发表的原创帖子数量记为vOTg,每天转发的帖子数量,记为VfOT,每天评论的帖子数量记为Vm,可以定义下述公式将该指标量化;L = WorgVorg+ffforVfor+ffremVrem (I)在(I)式中,Worg为原创帖子所占的活跃度权重,Wfor为转发帖子所占的活跃度权重,WM为评论帖子所占的活跃度权重;为了防止具有较大初始值的属性与具有较小初始值的属性相比,权重过大,需要先将上述三种帖子数量进行规范化后再代入公式进行计算;规范化和参数确定具体方法请见具体实施方式;四、意见个体受关注度:如果意见个体所发的微博受关注程度越高,则越可能是意见领袖,为此定义平均转发数、平均浏览数、平均评论数三种指标如下;I)平均转发数M = Tt/N,其中:N为发文量,Tt为所有发文转发总数;2)平均浏览数S = Tc/N,其中:N发文量,Tc为所有发文浏览数的总数;3)平均评论数P = Td/N,其中:N发文量,Td为所有发文评论数的总数;4)平均转发数的权重比为Wm,平均浏览数的权重比为Ws,平均评论数的权重比为Wp ;意见个体受关注度C = M*Wm+S*Ws+P*Wp (2)各个数量在代入(2)式计算时同样需要做归一化处理,权重取值和归一化处理方法详见具体实施方式;五、意见个体发文认同度:对于某个主题或领域的意见领袖,其发表的微博观点往往会得到多数人的认同,定义意见发文认同度指标,本文档来自技高网
...

【技术保护点】
微博媒体中的意见领袖识别方法,包括以下步骤:一、网络意见收集:网络意见的收集是通过微博平台用户发表的言论,通过网络的合法的收集下载,下载大量的微博发文及其评论信息,并针对相关的话题比较活跃的进行跟踪的下载,将所有的发文按照用户分类进行抽取、统计以提供各方面的分析;二、标准样本库标注:选取一段时间内,有发言的微博作者,由相关的意见领袖识别专家对该作者进行手工标注,给出是否为网络水军的判定,并从中选取一定量的微博作者放入标准样本数据库;该样本数据将作为后续意见领袖判定的标注样本集合;三、意见个体活跃度:1)个体活跃度由三个方面构成,包括,在某一段相关话题比较活跃的时间内,该作者平均每天发表的原创帖子数量记为Vorg,每天转发的帖子数量记为Vfor,每天评论的帖子数量记为Vrem,可以定义下述公式将该指标量化;L=WorgVorg+WforVfor+WremVrem?(1)在(1)式中,Worg为原创帖子所占的活跃度权重,Wfor为转发帖子所占的活跃度权重,Wrem为评论帖子所占的活跃度权重;为了防止具有较大初始值的属性与具有较小初始值的属性相比,权重过大,需要先将上述三种帖子数量进行规范化后再代入公式进行计算;四、意见个体受关注度:如果意见个体所发的微博受关注程度越高,则越可能是意见领袖,为此定义平均转发数、平均浏览数、平均评论数三种指标如下;1)平均转发数M=Tt/N,其中:N为发文量,Tt为所有发文转发总数;2)平均浏览数S=Tc/N,其中:N发文量,Tc为所有发文浏览数的总数;3)平均评论数P=Td/N,其中:N发文量,Td为所有发文评论数的总数;4)平均转发数的权重比为Wm,平均浏览数的权重比为Ws,平均评论数的 权重比为Wp;意见个体受关注度C=M*Wm+S*Ws+P*Wp??(2)各个数量在代入(2)式计算时同样需要做归一化处理;五、意见个体发文认同度:对于某个主题或领域的意见领袖,其发表的微博观点往往会得到多数人的认同,定义意见个体发文认同度指标如下:B=Σi=1kAgreei-DisAgreeiN+1---(3)在(3)式中,Agreei表示意见个体发布的第i篇文章中所有持支持态度的评论数;DisAgreei表示持反对态度的评论数;k为意见个体发布的文章总数;N为所有参与评论的作者数量;六、意见领袖的分析和识别:针对步骤二中所述样本标注集合,计算出每一个作者的意见个体活跃度,意见个体受关注度,意见个体发文认同度后,可以得到一个三维特征向量(L,C,A),每个作者都代表三维空间中的一个点;对于一个未知的作者样本,在计算出其三维特征向量后,那么可以计算出样本数据集中离其最近的K个点,其中意见领袖和非意见领袖两个类别所占的个数表示成ki,i=1,2;i=1表示意见领袖,i=2表示非意见领袖,定义判别函数为:gi(x)=ki,i=1,2;决策规则为:根据这个K个最近邻点中所占大多数的类别,可以预测出该作者是否为意见领袖。FSA00000848690200022.tif...

【技术特征摘要】
1.微博媒体中的意见领袖识别方法,包括以下步骤: 一、网络意见收集: 网络意见的收集是通过微博平台用户发表的言论,通过网络的合法的收集下载,下载大量的微博发文及其评论信息,并针对相关的话题比较活跃的进行跟踪的下载,将所有的发文按照用户分类进行抽取、统计以提供各方面的分析; 二、标准样本库标注: 选取一段时间内,有发言的微博作者,由相关的意见领袖识别专家对该作...

【专利技术属性】
技术研发人员:郑中华高威帅志虎周银行
申请(专利权)人:安徽博约信息科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[北京市百度蜘蛛] 2014年12月09日 05:30
    基本解释◎领袖lǐngxiù1collarandsleeves∶衣领和衣袖2model∶指能为人表率的人3leader∶国家政党群众团体等的最高领导人
    0
1