一种社交网络高影响力信息的提取方法技术

技术编号:9113414 阅读:174 留言:0更新日期:2013-09-05 02:35
本发明专利技术基于社交网络的内在特性,提出了基于转发分布统计及有效性评估的信息提取方法,先根据信息来源工具对信息的分布进行了初步定质的评定,并在有效性处理中基于用户信息建立了有效的二次特征进行定量评判。计算时都采用线性复杂度的算法进行分析,计算资源需求小,具有较低的时间和空间代价;联合过程采用比对处理,最终用输出真正高曝光的微博信息。此信息提取方式在现实中更具实用价值。本发明专利技术有效实现了对社交网络的舆论信息的影响性和曝光率的分析,能够过滤的低质量数据,并保留真实有效的信息以供后续人工分析使用。

【技术实现步骤摘要】

【技术保护点】
一种社交网络高影响力信息的提取方法,其特征在于:它包括以下步骤:?步骤一:获取欲分析的所有S条已发布的微博信息的及微博对应的所有转发的相关记录,Q(G)表示第G条微博的完整记录,G=1,2,3,...,S。表示第G条微博的第k个转发的相关记录,即中包含了分别为此第G条微博第k个转发的转发人的id,转发评论的文字内容,此转发用户的关注总人数、粉丝总人数、自己发布的微博总条数,此转发的发布工具来源;同时设定单信息重复阈值系数β,0<β<0.005;提取比例α,0<α<1。?步骤二:对每个微博信息的完整记录,根据转发的发布工具记录信息,提取各微博的分布评定指标Sd(G),G=1,2,3,...,S,各微博的转发数目的总量SdA(G)?步骤三:对所有S个微博信息的完整记录,根据转发记录的用户的关注总人数、粉丝总人数、自己发布的微博总条数、转发的用户id、评论的字面内容ctk,提取各微博的真值评定指标Sr(G),G=1,2,3,...,S?步骤四:根据每个微博的分布评定指标和真值评定指标,计算各个微博信息的影响系数。其中第G条微博的影响系数FL(G)=max{Sr(G),1?0.8*Sd(G)}。?步骤五:对所有S条微博的影响系数FL(G)进行由大到小的排序,则输出前条微博信息,用以进行人工分析。?FSA00000873093000011.tif,FSA00000873093000012.tif,FSA00000873093000013.tif,FSA00000873093000014.tif,FSA00000873093000015.tif...

【技术特征摘要】

【专利技术属性】
技术研发人员:于霄
申请(专利权)人:北京宏博知微科技有限公司于霄
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1