一种基于循环神经网络的社交网络消息爆发检测方法及系统技术方案

技术编号:13783178 阅读:79 留言:0更新日期:2016-10-05 00:26
本发明专利技术提出一种基于循环神经网络(Recurrent Neural Network,RNN)的社交网络消息爆发检测方法及系统,涉及在线社交网络中内容的流行度预测技术领域,该方法包括获取社交网络中用户发布与转发的历史消息,对所述历史消息进行预处理,获取历史转发时间序列;对所述历史消息与所述历史转发时间序列进行循环神经网络训练,并生成预测模型;实时采集用户发布与转发的消息,根据所述消息,生成转发时间序列,将所述转发时间序列输入到所述预测模型,生成特征表达,将所述特征表达输入到全连接神经网络进行分类,结果以softmax方式输出,以完成社交网络消息爆发检测。

【技术实现步骤摘要】

本专利技术涉及在线社交网络中内容的流行度预测
,特别涉及一种基于循环神经网络的社交网络消息爆发检测方法及系统
技术介绍
以微博为代表的在线社交媒体,每天会产生数以亿计的消息和内容,社交网络中用户高度互联的结构和用户的从众效应使得消息的扩散变得十分的便捷和高效,极大地便利了人们获取信息的方式,加强了人与人之间的联系,然而,网络中的信息良莠不齐,只有极少部分的消息最终会流行和爆发,引起公众广泛地关注并伴随着巨大的社会舆论和影响,在消息或内容爆发的早期进行有效识别,对于公司来讲,是在线信誉监控(Online Reputation Monitoring)的重要手段,如果是负面的消息,则应该及时采取相应的措施,降低公司信誉损失,正面的消息则可借机营销,提升公司业绩;对于政府部门来讲,尽早地发现关于自然灾害事件、公共卫生疾病、反动谣言等消息,就能及时采取对应的措施,提前进行相应的决策和部署。目前,预测消息的爆发和流行主要可以分为基于内容特征的分析方法和基于自激励点过程的方法,基于内容特征的方法通过捕捉消息相关的内容特征随时间的异常变化,来发现突发的话题,这种方法需要消息的传播积累到一定程度,达到了显著的水平,客观上造成了爆发消息被检出的时间已经接近或滞后于消息爆发实际发生的时间,时效性不高;基于自激励点过程的方法,以消息个体为对象,将其转发时间序列建模成自激励的点过程,旨在刻画消息传播中的“富者愈富”、“时间衰减”等序列特征,与基于内容特征的方法相比,该方法时效性高,但是,基于自激励点过程的方法,仍存在以下缺点:第一,其特征是人为定义的,对数据的依赖很强,如对于“富者愈富”现象的建模,有的采用线性函数,有的采用非线性函数,对于“时间衰减”效应,有的采用log-normal分布,有的采用power law分布;第二,该模型在预测的时候只利用了待预测消息的观测序列,没有用到其它消息的历史传播信息,导致预测
的准确性不高。综上,目前还缺乏一种预测及时,人为干预少且预测效果好的方法。专利技术专利“一种微博突发事件检测方法”,包括步骤:降维处理:基于LSH算法对微博数据流中的词汇进行映射处理;创建B-Sketch模型:创建微博数据流中的B-Sketch数据;推测突发事件:根据B-Sketch数据计算微博数据流中的事件加速率a和事件中词的分布向量p,根据事件加速率a判断事件是否为突发事件。由于通过LSH算法将所有词汇映射到低维空间,降低了计算的复杂度,并基于B-Sketch模型推测隐含的突发事件,使得能够快速有效的实时处理微博数据流,及早地检测出突发事件。该专利技术专利通过跟踪微博中词特征随时间的动态变化趋势发现突发事件,而本专利技术利用的是信息传播的转发时间序列,利用循环神经网络来进行序列特征的识别和分类,与上述专利技术专利有本质区别。
技术实现思路
针对现有技术的不足,本专利技术提出一种基于循环神经网络的社交网络消息爆发检测方法及系统,循环神经网络包含LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)等类型的网络。本专利技术提出一种基于循环神经网络的社交网络消息爆发检测方法,包括:步骤1,获取社交网络中用户发布与转发的历史消息,对所述历史消息进行预处理,获取历史转发时间序列特征;步骤2,将所述历史消息与所述历史转发时间序列特征输入循环神经网络训练,并生成预测模型;步骤3,实时采集用户发布与转发的消息,根据所述消息,生成转发时间序列特征,将所述转发时间序列特征输入到所述预测模型,生成特征表达,将所述特征表达输入到全连接神经网络进行分类,结果以softmax方式输出,以完成社交网络消息爆发检测。所述步骤1中通过所述历史消息中的转发标识构建所述消息的所述历史转发时间序列特征,然后基于循环神经网络进行消息转发序列特征的抽取。通过“//@用户名”标识或“RT@用户名”标识获取所述历史转发时间序列特征。根据社交网络中API从社交网络中获取所述历史消息或所述消息。所述步骤1中预处理包括对所述历史消息进行垃圾过滤,保留存在内容、存在用户转发的历史消息。本专利技术还提出一种基于循环神经网络的社交网络消息爆发检测系统,包括:获取历史转发时间序列模块,用于获取社交网络中用户发布与转发的历史消息,对所述历史消息进行预处理,获取历史转发时间序列特征;生成预测模型模块,用于将所述历史消息与所述历史转发时间序列特征输入循环神经网络训练,并生成预测模型;网络消息爆发检测模块,用于实时采集用户发布与转发的消息,根据所述消息,生成转发时间序列特征,将所述转发时间序列特征输入到所述预测模型,生成特征表达,将所述特征表达输入到全连接神经网络进行分类,结果以softmax方式输出,以完成社交网络消息爆发检测。所述获取历史转发时间序列模块中通过所述历史消息中的转发标识构建所述消息的所述历史转发时间序列特征,然后基于循环神经网络进行消息转发序列特征的抽取。通过“//@用户名”标识或“RT@用户名”标识获取所述历史转发时间序列特征。根据社交网络中API从社交网络中获取所述历史消息或所述消息。所述获取历史转发时间序列模块中预处理包括对所述历史消息进行垃圾过滤,保留存在内容、存在用户转发的历史消息。由以上方案可知,本专利技术的优点在于:本专利技术具有以下优势:(1)避免了人为定义特征的随意性和人工抽取特征的烦琐过程,是一种完全数据驱动的措施;(2)打破了特征之间的独立性假设,自动学习消息内容转发过程中的长时间序列特征,具有更强的表达能力。附图说明图1为整个系统的流程示意图;图2为神经网络架构图;图3为LSTM单元图;图4为三种类型的pooling操作;图5为消息的转发时间序列图。具体实施方式针对现有技术不足,本文提出了一种基于循环神经网络的社交网络消息爆发检测方法及系统,该方法利用循环神经网络擅长处理和预测时间序列中间隔和延迟非常长的重要特征的特点,以单个消息的初始转发时间序列作为输入,建模消息转发过程中的长时间依赖关系,自动学习如“富者愈富”、“时间衰减”等消息的转发序列特征。具体的,本专利技术方法包括以下步骤,如图1所示:步骤1:社交网络数据采集。根据社交网络的特点采集相应的内容和时间信息,对于微博和Twitter来讲,指的是用户发布和转发的历史消息以及相应的时刻;步骤2:数据预处理。对数据进行垃圾过滤,近似重复消息的归集,利用消息中的转发标识构建消息的历史转发时间序列。对数据进行垃圾过滤,去除没有内容、没有转发数的微博,利用Simhash等方法,对微博消息中近似重复的消息进行归集,对每一条消息,利用消息中的转发标识构建消息的转发时间序列,对每条消息的爆发和非爆发属性,按照任务的需求进行标注,如在一周之内转发次数超过1000的为爆发消息,否则为非爆发消息。步骤3:循环神经网络训练。将预处理得到的样本分为训练集、验证集和测试集。设共有n条消息(p1,p2,…,pn),y=(y1,y2,…,yn)表示消息真实的类别,表示预测的消息类别,是循环网络需要学习的预测函数,优化的目标是最小化交叉熵函数L(θ),如式(1)所示: L ( θ ) = - 本文档来自技高网
...

【技术保护点】
一种基于循环神经网络的社交网络消息爆发检测方法,其特征在于,包括:步骤1,获取社交网络中用户发布与转发的历史消息,对所述历史消息进行预处理,获取历史转发时间序列特征;步骤2,将所述历史消息与所述历史转发时间序列特征输入循环神经网络训练,并生成预测模型;步骤3,实时采集用户发布与转发的消息,根据所述消息,生成转发时间序列特征,将所述转发时间序列特征输入到所述预测模型,生成特征表达,将所述特征表达输入到全连接神经网络进行分类,结果以softmax方式输出,以完成社交网络消息爆发检测。

【技术特征摘要】
1.一种基于循环神经网络的社交网络消息爆发检测方法,其特征在于,包括:步骤1,获取社交网络中用户发布与转发的历史消息,对所述历史消息进行预处理,获取历史转发时间序列特征;步骤2,将所述历史消息与所述历史转发时间序列特征输入循环神经网络训练,并生成预测模型;步骤3,实时采集用户发布与转发的消息,根据所述消息,生成转发时间序列特征,将所述转发时间序列特征输入到所述预测模型,生成特征表达,将所述特征表达输入到全连接神经网络进行分类,结果以softmax方式输出,以完成社交网络消息爆发检测。2.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法,其特征在于,所述步骤1中通过所述历史消息中的转发标识构建所述消息的所述历史转发时间序列特征,然后基于循环神经网络进行消息转发序列特征的抽取。3.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法,其特征在于,通过“//@用户名”标识或“RT@用户名”标识获取所述历史转发时间序列特征。4.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法,其特征在于,根据社交网络中API从社交网络中获取所述历史消息或所述消息。5.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法,其特征在于,所述步骤1中预处理包括对所述历史消息进行垃圾过滤,保留存在内容、存在用户转发的历史消息。6.一种基于循环神经网络的社交网络消息爆发检测系统,...

【专利技术属性】
技术研发人员:笱程成程学旗杜攀刘悦沈华伟
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1