一种针对twitter的热点事件爆发预测的方法技术

技术编号:24121641 阅读:33 留言:0更新日期:2020-05-13 03:15
本发明专利技术涉及一种针对twitter的热点事件爆发预测的方法,用于预测twitter中的某个热点事件是否会造成大规模传播,具体技术方案为,首先通过twitter官方API接收实时推文消息。推文中包含了一个或多个话题,依据话题对推文分类并形成数据集,话题和推文之间的关系为多对多关系。之后将推文中的转发关系和指定转发关系进行梳理并形成数据集。根据需要预测的某个话题将所需的推文整合并组建用户关系网,并将网络分解表达。最终使用分解后的网络预测。该方法相较于传统的情感分析、用户分析方法,能够从全网的用户关系网构成角度出发,全面了解事件网络状态以及波及用户范围,能够及时快速知道当前事件发展趋势,给出预测结果。

【技术实现步骤摘要】
一种针对twitter的热点事件爆发预测的方法
本专利技术涉及一种基于事件传播网络的热点事件爆发预测的方法,属于互联网舆情分析

技术介绍
随着互联网和社交媒体的快速发展与普及,推特、微博凭借其开放性、终端扩展性、内容简洁性和低门槛性等特点,已经成为人们获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介和社会公共舆论的重要平台。对于某些社会现象,或者某些社会事件,民众更愿意通过推特或微博等社交媒体表达自己的看法,参与事件的讨论。某件事件受民众关注度越高,引发讨论的人也就会越多,相关联的用户数量也会增加,随着越来越多的用户加入事件的讨论,最终会导致事件的爆发。
技术实现思路
本专利技术主要针对推特、微博等社交媒体平台,通过对某个事件推文用户之间的转发和@组成的关系网研究,实现对事件各个阶段的预测,能够给出有效的预警信息,为舆情控制提供适当参考。传统的舆情分析思路主要是从文本角度,通过分析情感分析等方法来分析舆情;或者查看某个大V的发文历史来预测新的推文的转发量等等。这种分析方法相对局限,不能够整体的、宏观的反应网络的整体情况,而通过实践传播网络分析,可以能够从整个网络变化的角度分析网络的变化,进而得到某个事件是否会成为热点事件或者是否会有爆发的趋势。为了实现上述目的,本专利技术采用技术方案为基于事件传播网络的热点事件爆发预测的方法,如图1所示,该方法的实现步骤如下:步骤1:获取twitter实时数据流中的数据步骤2:推文分类从步骤1中得到推文,以文中的话题为推文做分类,建立推文分类数据集;步骤3:推文关系梳理一条推文有四种情况:第一种情况,文本来源于原创,不存在转发或者转发给指定对象;第二种情况,文本来源于原创,存在转发给特定对象的情况;第三种情况,文本转自其他作者,不存在转发给指定对象的情况;第四种情况,文本转自其他作者,存在转发给特定对象的情况。上述四种情况中,第一种情况不存在用户之间的关联关系,因此不做处理;第二种情况,在数据库中存储一条信息,即记录本文作者和被转发对象存在的指定关系;第三种情况,记录本文作者和被转发的推文作者之间的转发关系;第四种情况,创建两条记录,分别记录本文作者和被转发作者的转发关系以及本文作者和转发特定对象的指定关系,最终形成推文的用户关系数据集;步骤4:预测本方法针对某个话题是否会导致大规模传播做出预测,预测步骤分为三步:第一步:针对某个话题组织用户关系网络在步骤2中得到了推文话题数据集,针对某个话题,依据话题的ID,可在数据集中检索到所有该话题的推文数据;根据推文的ID,可在步骤3中得到的用户关系数据集得到当前所有推文的用户关系表;第二步:对话题网络进行表达第一步中得到了用户关系表,依据这张表的用户关系组成一张用户关系网,把用户关系网根据13种子图模型进行分解表达,即[l1,l2,…,l13],其中li代表用户关系网分解为第i种子图模型的数量;步骤三:预测某个事件在某个周期用户关系网络的变化会体现在子图的变化上,因此分析子图数量的周期变化来预测未来一个周期内事件是否会有爆发趋势。步骤1中所述数据包含了id(推文ID)、user_id(推文作者ID)、user_location(推文作者国别)、profile(作者头像地址)、screen_name(作者昵称)、content(本条推文内容)、created_at(推文创建时间);如果该条推文转发自其他作者,则该数据中还包含以下字段:retweeted(被转发的推文内容)、retweeted_id(被转发推文的ID)、retweeted_screen_name(被转发推文作者的昵称)、retweeted_user_id(被转发推文的用户ID)、retweeted_user_location(被转发推文作者的国别)、retweeted_created_at(被转发推文的创建时间);每条推文中会包含多个话题,话题和推文的关系为多对多的关系。步骤4中所述用户关系网的分解方法为BatageljV,MrvarA在论文《ASubquadraticTriadCensusAlgorithmforLargeSparseNetworkswithSmallMaximumDegree》提到的分解方法,该方法中涉及13种子图模型用于分解网络。有益效果该方法相较于传统的情感分析、用户分析方法,能够从全网的用户关系网构成角度出发,全面了解事件网络状态以及波及用户范围,能够及时快速知道当前事件发展趋势,给出预测结果。附图说明图1a用户关系图;图1b、1c、1d用户关系子图;图2、13种子图模型示意图;图3、方法流程图。具体实施方式本专利技术采用技术方案为基于事件传播网络的热点事件爆发预测的方法,该方法的实现步骤如下:步骤1:获取twitter实时数据流中的数据通过twitter的官方网站申请开发者账户,使用官方API(应用程序编程接口,下文统称API)可以接收到脱敏后的实时推文数据。该数据中包含了id(推文ID)、user_id(推文作者ID)、user_location(推文作者国别)、profile(作者头像地址)、screen_name(作者昵称)、content(本条推文内容)、created_at(推文创建时间),如果该条推文转发自其他作者,则该数据中还包含以下字段:retweeted(被转发的推文内容)、retweeted_id(被转发推文的ID)、retweeted_screen_name(被转发推文作者的昵称)、retweeted_user_id(被转发推文的用户ID)、retweeted_user_location(被转发推文作者的国别)、retweeted_created_at(被转发推文的创建时间)。下表是从twitter的API中接收到的消息:从上面的例子中我们能看到每条推文中会包含很多话题,比如本条推文中包含了#GiletsJaunes和#Yellowvests两个话题。因此话题也是一个隐藏属性,一条推文中可包含多个话题,话题和推文的关系为多对多的关系。文中的RT@someone指的是转发自用户昵称为@someone的推文,说明该推文并非作者原创,在RT之前的内容为本文作者想要说的内容,而RT@someone后面的内容是被转发作者发布的内容。对于本文来说,本文作者只发布了以下内容“@charles134”,其他内容是被转发作者发布的。步骤2:推文分类从步骤1中我们得到了推文,我们以文中的话题为推文做分类。建立推文分类数据集。如步骤1中的推文内容是"@charles134RT@ohboywhatashot:13thweek:#GiletsJaunes#Yellowvestsprotest:#Paris-Ongoin本文档来自技高网...

【技术保护点】
1.一种针对twitter的热点事件爆发预测的方法,其特征在于:该方法的时间步骤如下:/n步骤1:获取twitter实时数据流中的数据/n步骤2:推文分类/n从步骤1中得到推文,以文中的话题为推文做分类,建立推文分类数据集;/n步骤3:推文关系梳理/n一条推文有四种情况:/n第一种情况,文本来源于原创,不存在转发或者转发给指定对象;/n第二种情况,文本来源于原创,存在转发给特定对象的情况;/n第三种情况,文本转自其他作者,不存在转发给指定对象的情况;/n第四种情况,文本转自其他作者,存在转发给特定对象的情况。/n上述四种情况中,第一种情况不存在用户之间的关联关系,因此不做处理;第二种情况,在数据库中存储一条信息,即记录本文作者和被转发对象存在的指定关系;第三种情况,记录本文作者和被转发的推文作者之间的转发关系;第四种情况,创建两条记录,分别记录本文作者和被转发作者的转发关系以及本文作者和转发特定对象的指定关系,最终形成推文的用户关系数据集;/n步骤4:预测/n本方法针对某个话题是否会导致大规模传播做出预测,预测步骤分为三步:/n第一步:针对某个话题组织用户关系网络/n在步骤2中得到了推文话题数据集,针对某个话题,依据话题的ID,可在数据集中检索到所有该话题的推文数据;根据推文的ID,可在步骤3中得到的用户关系数据集得到当前所有推文的用户关系表;/n第二步:对话题网络进行表达/n第一步中得到了用户关系表,依据这张表的用户关系组成一张用户关系网,把用户关系网根据13种子图模型进行分解表达,即[l...

【技术特征摘要】
1.一种针对twitter的热点事件爆发预测的方法,其特征在于:该方法的时间步骤如下:
步骤1:获取twitter实时数据流中的数据
步骤2:推文分类
从步骤1中得到推文,以文中的话题为推文做分类,建立推文分类数据集;
步骤3:推文关系梳理
一条推文有四种情况:
第一种情况,文本来源于原创,不存在转发或者转发给指定对象;
第二种情况,文本来源于原创,存在转发给特定对象的情况;
第三种情况,文本转自其他作者,不存在转发给指定对象的情况;
第四种情况,文本转自其他作者,存在转发给特定对象的情况。
上述四种情况中,第一种情况不存在用户之间的关联关系,因此不做处理;第二种情况,在数据库中存储一条信息,即记录本文作者和被转发对象存在的指定关系;第三种情况,记录本文作者和被转发的推文作者之间的转发关系;第四种情况,创建两条记录,分别记录本文作者和被转发作者的转发关系以及本文作者和转发特定对象的指定关系,最终形成推文的用户关系数据集;
步骤4:预测
本方法针对某个话题是否会导致大规模传播做出预测,预测步骤分为三步:
第一步:针对某个话题组织用户关系网络
在步骤2中得到了推文话题数据集,针对某个话题,依据话题的ID,可在数据集中检索到所有该话题的推文数据;根据推文的ID,可在步骤3中得到的用户关系数据集得到当前所有推文的用户关系表;
第二步:对话题网络进行表达
第一步中得到了用户关系表,依据这张表的用户关系组成一张用户关系网,把用户关系网根据13种子图模型进行分解表达,即[l1,l2,…,l13],其中li代表用户关系...

【专利技术属性】
技术研发人员:鲁宁杨震
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1