一种计算影响力数据的方法与装置制造方法及图纸

技术编号:9865931 阅读:143 留言:0更新日期:2014-04-03 01:28
本发明专利技术公开了一种计算影响力数据的方法与装置;所述方法适用于社交网络,包括:以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;根据所爬取的所述用户操作数据计算每天的用户参与次数;分别计算每天的参与次数增长率;比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期。本发明专利技术能够提高社交网络的影响力数据的正确性和可靠性,更加符合实际情况。

【技术实现步骤摘要】
一种计算影响力数据的方法与装置
本专利技术涉及互联网领域,特别涉及一种计算影响力数据的方法与装置。
技术介绍
截至2012年12月底,新浪微博注册用户数已超过5亿。2012年12月,日活跃用户数达到4620万。微博用户数与活跃用户数保持稳定增长。腾讯微博的注册账户数更高达5.4亿,日均活跃用户数超过8700万。微博应用的风靡,尤其是门户微博时代的到来,可以说是盖过了各种模式的互联网平台的风头。在社交网络上进行企业信息发布不仅拥有互联网传播快捷、廉价的优势,其特有的用户互动效果是其它媒体方式所无法比拟的。此外在社交媒体上做宣传不同于直接的广告投放,以微博形式发布的信息不需要额外的资金投入;同时,信息的传播不再只局限于企业自身的被关注度,有较强影响力用户的转发为信息的传播贡献了非常重要的力量。传统的影响力数据获取方案中不会考虑用户本身对信息的传播贡献,用户也无法将自身的观点和情感倾向融入信息中加以散播,而在社交网络中用户可以使用多种方式表达自身的观点:发表评论点击“赞”、“踩”,甚至可以直接发帖表明观点;社交网络的新颖性在成为信息传播新模式的同时,导致信息的传播手段、用户参与方式、用户关注渠道等都和传统网络非常不同,这意味着如果直接将传统的影响力数据计算方案应用在新型社交网络中,将有可能忽略用户在信息传播中的行为,最终导致所得到的影响力数据片面且失真。比如由于社交网络发文的免费性,企业的发文和用户的发文处在一个平等的平台中,导致两者的影响力也相对接近。企业在传统网络中发布的信息影响力随时间推进衰减的较少,而社交网络中由于不断有用户发布新的信息,一条信息的影响力会在相对较短的时间内迅速减弱,因此如果采用和传统网络相同的方式计算信息的活跃时间,很有可能会得到一个超出实际情况的活跃时间,无法得到准确的信息更新周期。
技术实现思路
本专利技术所要解决的技术问题是如何提高社交网络的影响力数据的正确性和可靠性,更加符合实际情况。为了解决上述技术问题,本专利技术公开了一种计算影响力数据的方法,适用于社交网络,包括:以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数;所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息,所述指定信息的第L层子信息是指对该指定信息第L-1层子信息的评论信息或转发信息;L为大于1的正整数;根据所爬取的所述用户操作数据计算每天的用户参与次数;所述每天的用户参与次数为每天的评论次数加转发次数;分别计算每天的参与次数增长率;所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差;比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期;其中N和M为正整数。可选地,所述的方法还包括:所述用户操作数据还包括:对所述指定信息或其子信息的参与行为数据;所述参与行为数据至少包括参与行为的发布时间;所述参与行为包括评论、转发、投票;从所述指定信息的参与行为数据中获取最迟的发布时间,用该最迟的发布时间减去所述指定信息的发布时间,得到所述指定信息的生存时间长度。可选地,所述用户操作数据还包括:所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据;所述被投票数据包括投票的内容;所述方法还包括:对所述指定信息及各层评论信息的内容分别进行分词,使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断,得到所述指定信息及各层评论信息的情感类型;各层转发信息与所转发的指定信息或子信息的情感类型一致;各投票的情感类型根据投票的内容确定;所述情感类型包括:正面、负面和中性。可选地,所述用户操作数据还包括:对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息;所述用户互动信息至少包括互动所针对的用户标识;所述方法还包括:根据所述用户互动信息提取互动所针对的用户标识;将所提取的用户标识与所述用户操作数据中进行评论、转发、投票的用户标识进行匹配,计算匹配成功的个数和匹配失败的个数,用匹配成功的个数除以匹配成功和失败的个数之和,得到所述指定信息的主动传播成功率。可选地,所述投票数据还包括:对所述指定信息及其各层子信息投票的次数;所述方法还包括:根据所述用户操作数据中的用户标识生成原始用户集合,从中删除重复的用户标识,以及爬取过用户数据的用户标识后,根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据;所述用户数据至少包括所述用户标识对应的粉丝数;计算每种情感类型下的传播量和参与量:传播量:PQspead=Σ(commenti×wordi×fani)/wordall+transpondall×fani×min{wordi}/wordall;参与量:PQ=[Σ(commenti×wordi×fani)+(transpondall×fani+praiseall)×min{wordi}]/wordall;其中,commenti为该情感类型下的第i条评论,i为小于或等于该情感类型下的总评论次数的各正整数;wordi为该第i条评论的字数,wordall为该情感类型下的总字数,transpondall为该情感类型下的总转发次数,praiseall为该情感类型下的投票的总次数,fani表示发布该评论信息或转发信息的用户标识对应的粉丝数。可选地,所述的方法还包括:利用病毒传播SIR模型,根据被转发和被评论关系,生成转发评论树;统计所述转发评论树的最深层数,找出所述转发评论树中转发次数和评论次数之和最大的前k个节点;k=min{(user×α),10},其中0<α<1,user为对所述指定信息及其各层子信息进行转发或评论的用户标识的个数,min{}是指取{}中的最小值;查询这k个节点所对应的评论信息或转发信息的情感类型,在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识,作为强影响力用户。可选地,所述用户操作数据还包括:所述评论信息、转发信息、投票的层数;其中,评论信息和转发信息的层数是所评论或转发的信息的层数加1,所述投票的层数是所针对的信息的层数;所述指定信息的层数为0;所述方法还包括:从所述指定信息中提取一个或多个关键词;以选出的关键词为检索词在所述社交网络的服务器中进行搜索,从检索出的信息的标识中去除所述指定信息的标识后,作为衍生信息;分别以各衍生信息的标识作为输入从所述社交网络的服务器中爬取各衍生信息的用户操作数据;如果爬取到的所有衍生信息的用户操作数据中,存在信息的标识或用户标识相同的多条数据,则保留层数最多的一条数据,将所述多条数据中其它数据及其后续数据全部删除;一条数据的后续数据是指:对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据;统计过滤后的0层信息的个数,作为所述指定信息对应的衍生信息的个数。可选地,所述的方法还包括:根据所爬取的各衍生信息的用户操作数据,获取所述过滤后的0层信息的内容,并根本文档来自技高网
...
一种计算影响力数据的方法与装置

【技术保护点】
一种计算影响力数据的方法,适用于社交网络,其特征在于,包括:以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数;所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息,所述指定信息的第L层子信息是指对该指定信息第L-1层子信息的评论信息或转发信息;L为大于1的正整数;根据所爬取的所述用户操作数据计算每天的用户参与次数;所述每天的用户参与次数为每天的评论次数加转发次数;分别计算每天的参与次数增长率;所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差;比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期;其中N和M为正整数。

【技术特征摘要】
1.一种计算影响力数据的方法,适用于社交网络,其特征在于,包括:以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;所述用户操作数据至少包括所述指定信息及其各层子信息每天的转发次数及评论次数;所述指定信息的第1层子信息是指对该指定信息的评论信息或转发信息,所述指定信息的第L层子信息是指对该指定信息第L-1层子信息的评论信息或转发信息;L为大于1的正整数;根据所爬取的所述用户操作数据计算每天的用户参与次数;所述每天的用户参与次数为每天的评论次数加转发次数;分别计算每天的参与次数增长率;所述参与次数增长率为当天的用户参与次数与前一天的用户参与次数之差;比较各相邻天的所述参与次数增长率,选出当天的所述参与次数增长率与前N天的参与次数增长率之差均大于第一预定阈值的日期、以及前M天的参与增长率均为负值,当天的所述参与次数增长率为正值且当天的用户参与次数大于第二预定阈值的日期;其中N和M为正整数。2.如权利要求1所述的方法,其特征在于,还包括:所述用户操作数据还包括:对所述指定信息或其子信息的参与行为数据;所述参与行为数据至少包括参与行为的发布时间;所述参与行为包括评论、转发、投票;从所述指定信息的参与行为数据中获取最迟的发布时间,用该最迟的发布时间减去所述指定信息的发布时间,得到所述指定信息的生存时间长度。3.如权利要求1所述的方法,其特征在于:所述用户操作数据还包括:所述指定信息及各层评论信息的内容、对所述指定信息及其各层子信息的投票数据;所述投票数据包括投票的内容;所述方法还包括:对所述指定信息及各层评论信息的内容分别进行分词,使用情感判断算法分别对所述指定信息及各层评论信息的分词结果进行判断,得到所述指定信息及各层评论信息的情感类型;各层转发信息与所转发的指定信息或子信息的情感类型一致;各投票的情感类型根据投票的内容确定;所述情感类型包括:正面、负面和中性。4.如权利要求3所述的方法,其特征在于:所述用户操作数据还包括:对所述指定信息及其各层子信息进行评论、转发、投票的用户标识、以及所述指定信息及其各层子信息中的用户互动信息;所述用户互动信息至少包括互动所针对的用户标识;所述方法还包括:根据所述用户互动信息提取互动所针对的用户标识;将所提取的用户标识与所述用户操作数据中进行评论、转发、投票的用户标识进行匹配,计算匹配成功的个数和匹配失败的个数,用匹配成功的个数除以匹配成功和失败的个数之和,得到所述指定信息的主动传播成功率。5.如权利要求4所述的方法,其特征在于:所述投票数据还包括:对所述指定信息及其各层子信息投票的次数;所述方法还包括:根据所述用户操作数据中的用户标识生成原始用户集合,从中删除重复的用户标识,以及爬取过用户数据的用户标识后,根据所述原始用户集合中剩余的用户标识从所述社交网络的服务器中爬取对应的用户数据;所述用户数据至少包括所述用户标识对应的粉丝数;计算每种情感类型下的传播量和参与量:传播量:PQspead=Σ(commenti×wordi×fani)/wordall+transpondall×fani×min{wordi}/wordall;参与量:PQ=[Σ(commenti×wordi×fani)+(transpondall×fani+praiseall)×min{wordi}]/wordall;其中,commenti为该情感类型下的第i条评论,i为小于或等于该情感类型下的总评论次数的各正整数;wordi为该第i条评论的字数,wordall为该情感类型下的总字数,transpondall为该情感类型下的总转发次数,praiseall为该情感类型下的投票的总次数,fani表示发布该评论信息或转发信息的用户标识对应的粉丝数。6.如权利要求5所述的方法,其特征在于,还包括:利用病毒传播SIR模型,根据被转发和被评论关系,生成转发评论树;统计所述转发评论树的最深层数,找出所述转发评论树中转发次数和评论次数之和最大的前k个节点;k=min{(user×α),10},其中0<α<1,user为对所述指定信息及其各层子信息进行转发或评论的用户标识的个数,min{}是指取{}中的最小值;查询这k个节点所对应的评论信息或转发信息的情感类型,在所述用户操作数据中查询发布这k个节点所对应的评论信息或转发信息的用户标识,作为强影响力用户。7.如权利要求4所述的方法,其特征在于:所述用户操作数据还包括:所述评论信息、转发信息、投票的层数;其中,评论信息和转发信息的层数是所评论或转发的信息的层数加1,所述投票的层数是所针对的信息的层数;所述指定信息的层数为0;所述方法还包括:从所述指定信息中提取一个或多个关键词;以选出的关键词为检索词在所述社交网络的服务器中进行搜索,从检索出的信息的标识中去除所述指定信息的标识后,作为衍生信息;分别以各衍生信息的标识作为输入从所述社交网络的服务器中爬取各衍生信息的用户操作数据;如果爬取到的所有衍生信息的用户操作数据中,存在信息的标识或用户标识相同的多条数据,则保留层数最多的一条数据,将所述多条数据中其它数据及其后续数据全部删除;一条数据的后续数据是指:对该条数据所对应的信息或子信息进行转发、评论、投票所产生的数据;统计过滤后的0层信息的个数,作为所述指定信息对应的衍生信息的个数。8.如权利要求7所述的方法,其特征在于,还包括:根据所爬取的各衍生信息的用户操作数据,获取所述过滤后的0层信息的内容,并根据所获取的内容判断各所述过滤后的0层信息的情感类型;将各所述过滤后的0层信息的情感类型与所述指定信息的情况类型进行比较,如果情感类型相反的0层信息的个数或比例超过第四预定阈值则生成告警提示消息。9.一种计算影响力数据的装置,适用于社交网络,其特征在于,包括:爬取模块,用于以指定信息的标识作为输入,从预定的社交网络的服务器中爬取所述指定信息的用户操作数据;所述用户操作数据至少包括所述指定信息及其各层...

【专利技术属性】
技术研发人员:王君鹤曲武周涛叶润国
申请(专利权)人:北京启明星辰信息安全技术有限公司北京启明星辰信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1