一个基于社交媒体的突发事件多维分析系统技术方案

技术编号:19593301 阅读:28 留言:0更新日期:2018-11-28 04:51
本发明专利技术提出一个基于社交媒体的突发事件多维分析系统,其特征在于包括:情感分析模块、话题分类模块、突发事件发现模块和舆情分析模块;所述情感分析模块,完成文本内容的情绪分类。所述话题分类模块,完成文本内容的话题分类。所述突发事件发现模块,完成对某一时间段内社交媒体突发事件的自动化提取,最终检测出的突发事件以词袋方式呈现,为舆情分析模块提供数据基础。所述舆情分析模块,实现对突发事件的自动化多维度舆情分析:从情绪、话题、人群、空间等方面全方位多角度对突发事件进行分析和理解。

【技术实现步骤摘要】
一个基于社交媒体的突发事件多维分析系统
本专利技术涉及一个分析系统,尤其涉及一个基于社交媒体的突发事件多维分析系统。
技术介绍
近年来,社交媒体迅猛发展。截至2017年9月,新浪微博的月活跃用户为3.92亿,日活跃用户达到1.72亿。大规模用户在其上发布海量消息,从而形成了一个新兴的自媒体平台。当社会热点事件发生时,用户在社交媒体平台上多以文本形式发布或转发大量针对相应事件的消息,从而形成在线热点,使得突发事件得以在社交媒体中广泛传播。对热点事件进行及时有效的分析,对于在线舆情监测和管理有重要的意义。然而,现有技术中,由于社交媒体文本数据规模大且庞杂,用户无法在短时间内了解当下的突发事件以及突发事件的全貌。因此,有必要从社交媒体中自动发现突发事件,并且针对突发事件进行多维度的舆情分析,包括情绪、话题、空间、人群等各个视角,继而提供自动化的事件理解与决策支持。
技术实现思路
本专利技术提供一个基于社交媒体的突发事件多维分析系统,包括:情感分析模块、话题分类模块、突发事件发现模块和舆情分析模块;所述情感分析模块,进行情感分析,进而对情绪分类,将文本自动归类于愤怒、厌恶、高兴、悲伤或恐惧。所述本文档来自技高网...

【技术保护点】
1.一个基于社交媒体的突发事件多维分析系统,其特征在于包括:情感分析模块、话题分类模块、突发事件发现模块和舆情分析模块;所述情感分析模块,完成对社交媒体文本的情绪分类,进行情感分析,进而对情绪分类,所述分类结果分为愤怒、厌恶、高兴、悲伤和恐惧五类,从情绪角度对突发事件进行舆情分析;所述话题分类模块,完成对社交媒体文本的话题分类:使用朴素贝叶斯方法训练话题分类器,将文本分为娱乐、体育、社会、军事、国际、财经或科技话题,从话题角度对突发事件进行舆情分析;所述突发事件发现模块,完成对某一时间段内社交媒体热点事件的自动化提取,最终检测出的突发事件以词袋方式呈现,为舆情分析模块提供数据基础;所述舆情分析...

【技术特征摘要】
1.一个基于社交媒体的突发事件多维分析系统,其特征在于包括:情感分析模块、话题分类模块、突发事件发现模块和舆情分析模块;所述情感分析模块,完成对社交媒体文本的情绪分类,进行情感分析,进而对情绪分类,所述分类结果分为愤怒、厌恶、高兴、悲伤和恐惧五类,从情绪角度对突发事件进行舆情分析;所述话题分类模块,完成对社交媒体文本的话题分类:使用朴素贝叶斯方法训练话题分类器,将文本分为娱乐、体育、社会、军事、国际、财经或科技话题,从话题角度对突发事件进行舆情分析;所述突发事件发现模块,完成对某一时间段内社交媒体热点事件的自动化提取,最终检测出的突发事件以词袋方式呈现,为舆情分析模块提供数据基础;所述舆情分析模块,实现对突发事件的自动化多维度舆情分析:从情绪、话题、人群、空间方面全方位多角度对突发事件进行分析;刻画突发事件的情绪分布;统计突发事件的话题类别;从人群的角度进行舆情分析,包括关键用户、性别以及认证用户分析;从空间的角度进行地域分析;从传播的角度进行转发网络分析。2.根据权利要求1所述的一个基于社交媒体的突发事件多维分析系统,其特征在于,所述话题分类器的具体实现过程为:步骤2a,针对各类话题选择相关的专业社交媒体账号;步骤2b,收集专业账号发布的内容文本作为训练数据;步骤2c,训练话题分类器,针对为话题集合C,cj为所述话题集合C中的任意一个话题,d为一条社交媒体文本,通过分词,d可以被分为(w1,w2,...,wn),其中wi为一个中文词所述分类器训练方式为所述P(w1,w2,...,wn)对于所有类别取值都相同,P(cj)为类先验概率为统一设置数值,所述P(w1,w2,...,wn|cj)为基于朴素贝叶斯分类器的独立性假设等价于所述为训练集中特征词wi在话题cj中出现的先验概率,其中,为词汇wi在训练集中话题为cj的文本中出现的次数,wq为任意特征词,q为正整数。3.根据权利要求1所述的一个基于社交媒体的突发事件多维分析系统,所述突发事件发现模块,完成对某一时间段内社交媒体热点事件的自动化提取,为舆情分析模块提供数据基础,具体实现为:步骤3a,获取当前时间段内的社交媒体文本数据;步骤3b,对社交媒体文本数据进行过滤与清洗;步骤3c,根据统突发性定义计算并排序过滤后的文本中的突发性词;步骤3d,对突发性词进行聚类,作为当前的突发事件;步骤3e,根据突发事件关键词从当前时间段内的文本数据中抽取突发事件相关内容;步骤3f,根据突发事件及其相关文本数据对突发事件进行过滤和排序;4.根据权利要求3所述的一个基于社交媒体的突发事件多维分析系统,其特征在于,对所述突发事件发现模块中社交媒体文本数据实现过滤,具体实现为:步骤4a,建立一个垃圾分类器,去除掉广告等垃圾文本内容;步骤4b,去除包含标签多于2个或词数量少于5个的社交媒体文本;步骤4c,去除完全重复的文本;步骤4d,使用局部敏感哈希方法去除过于相似的文本。5.根据权利要求3所述的一个基于社交媒体的突发...

【专利技术属性】
技术研发人员:赵吉昌范锐许可
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1