一种针对twitter的热点事件爆发预测的方法技术

技术编号：24121641 阅读：33 留言：0更新日期：2020-05-13 03:15

本发明专利技术涉及一种针对twitter的热点事件爆发预测的方法，用于预测twitter中的某个热点事件是否会造成大规模传播，具体技术方案为，首先通过twitter官方API接收实时推文消息。推文中包含了一个或多个话题，依据话题对推文分类并形成数据集，话题和推文之间的关系为多对多关系。之后将推文中的转发关系和指定转发关系进行梳理并形成数据集。根据需要预测的某个话题将所需的推文整合并组建用户关系网，并将网络分解表达。最终使用分解后的网络预测。该方法相较于传统的情感分析、用户分析方法，能够从全网的用户关系网构成角度出发，全面了解事件网络状态以及波及用户范围，能够及时快速知道当前事件发展趋势，给出预测结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对twitter的热点事件爆发预测的方法
本专利技术涉及一种基于事件传播网络的热点事件爆发预测的方法，属于互联网舆情分析

技术介绍
随着互联网和社交媒体的快速发展与普及，推特、微博凭借其开放性、终端扩展性、内容简洁性和低门槛性等特点，已经成为人们获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介和社会公共舆论的重要平台。对于某些社会现象，或者某些社会事件，民众更愿意通过推特或微博等社交媒体表达自己的看法，参与事件的讨论。某件事件受民众关注度越高，引发讨论的人也就会越多，相关联的用户数量也会增加，随着越来越多的用户加入事件的讨论，最终会导致事件的爆发。
技术实现思路
本专利技术主要针对推特、微博等社交媒体平台，通过对某个事件推文用户之间的转发和@组成的关系网研究，实现对事件各个阶段的预测，能够给出有效的预警信息，为舆情控制提供适当参考。传统的舆情分析思路主要是从文本角度，通过分析情感分析等方法来分析舆情；或者查看某个大V的发文历史来预测新的推文的转发量等等。这种分析方法相对局限，不能够整体的、宏观的反应网络的整体情况，而通过实践传播网络分析，可以能够从整个网络变化的角度分析网络的变化，进而得到某个事件是否会成为热点事件或者是否会有爆发的趋势。为了实现上述目的，本专利技术采用技术方案为基于事件传播网络的热点事件爆发预测的方法，如图1所示，该方法的实现步骤如下：步骤1：获取twitter实时数据流中的数据步骤2：推文分类从步骤...

【技术保护点】
1.一种针对twitter的热点事件爆发预测的方法，其特征在于：该方法的时间步骤如下：/n步骤1：获取twitter实时数据流中的数据/n步骤2：推文分类/n从步骤1中得到推文，以文中的话题为推文做分类，建立推文分类数据集；/n步骤3：推文关系梳理/n一条推文有四种情况：/n第一种情况，文本来源于原创，不存在转发或者转发给指定对象；/n第二种情况，文本来源于原创，存在转发给特定对象的情况；/n第三种情况，文本转自其他作者，不存在转发给指定对象的情况；/n第四种情况，文本转自其他作者，存在转发给特定对象的情况。/n上述四种情况中，第一种情况不存在用户之间的关联关系，因此不做处理；第二种情况，在数据库中存储一条信息，即记录本文作者和被转发对象存在的指定关系；第三种情况，记录本文作者和被转发的推文作者之间的转发关系；第四种情况，创建两条记录，分别记录本文作者和被转发作者的转发关系以及本文作者和转发特定对象的指定关系，最终形成推文的用户关系数据集；/n步骤4：预测/n本方法针对某个话题是否会导致大规模传播做出预测，预测步骤分为三步：/n第一步：针对某个话题组织用户关系网络/n在步骤2中得到了推...

【技术特征摘要】
1.一种针对twitter的热点事件爆发预测的方法，其特征在于：该方法的时间步骤如下：
步骤1：获取twitter实时数据流中的数据
步骤2：推文分类
从步骤1中得到推文，以文中的话题为推文做分类，建立推文分类数据集；
步骤3：推文关系梳理
一条推文有四种情况：
第一种情况，文本来源于原创，不存在转发或者转发给指定对象；
第二种情况，文本来源于原创，存在转发给特定对象的情况；
第三种情况，文本转自其他作者，不存在转发给指定对象的情况；
第四种情况，文本转自其他作者，存在转发给特定对象的情况。
上述四种情况中，第一种情况不存在用户之间的关联关系，因此不做处理；第二种情况，在数据库中存储一条信息，即记录本文作者和被转发对象存在的指定关系；第三种情况，记录本文作者和被转发的推文作者之间的转发关系；第四种情况，创建两条记录，分别记录本文作者和被转发作者的转发关系以及本文作者和转发特定对象的指定关系，最终形成推文的用户关系数据集；
步骤4：预测
本方法针对某个话题是否会导致大规模传播做出预测，预测步骤分为三步：
第一步：针对某个话题组织用户关系网络
在步骤2中得到了推文话题数据集，针对某个话题，依据话题的ID，可在数据集中检索到所有该话题的推文数据；根据推文的ID，可在步骤3中得到的用户关系数据集得到当前所有推文的用户关系表；
第二步：对话题网络进行表达
第一步中得到了用户关系表，依据这张表的用户关系组成一张用户关系网，把用户关系网根据13种子图模型进行分解表达，即[l1,l2,…，l13]，其中li代表用户关系...

【专利技术属性】
技术研发人员：鲁宁，杨震，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人