一种基于循环神经网络的社交网络消息爆发检测方法及系统技术方案

技术编号：13783178 阅读：79 留言：0更新日期：2016-10-05 00:26

本发明专利技术提出一种基于循环神经网络(Recurrent Neural Network，RNN)的社交网络消息爆发检测方法及系统，涉及在线社交网络中内容的流行度预测技术领域，该方法包括获取社交网络中用户发布与转发的历史消息，对所述历史消息进行预处理，获取历史转发时间序列；对所述历史消息与所述历史转发时间序列进行循环神经网络训练，并生成预测模型；实时采集用户发布与转发的消息，根据所述消息，生成转发时间序列，将所述转发时间序列输入到所述预测模型，生成特征表达，将所述特征表达输入到全连接神经网络进行分类，结果以softmax方式输出，以完成社交网络消息爆发检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及在线社交网络中内容的流行度预测
，特别涉及一种基于循环神经网络的社交网络消息爆发检测方法及系统。
技术介绍
以微博为代表的在线社交媒体，每天会产生数以亿计的消息和内容，社交网络中用户高度互联的结构和用户的从众效应使得消息的扩散变得十分的便捷和高效，极大地便利了人们获取信息的方式，加强了人与人之间的联系，然而，网络中的信息良莠不齐，只有极少部分的消息最终会流行和爆发，引起公众广泛地关注并伴随着巨大的社会舆论和影响，在消息或内容爆发的早期进行有效识别，对于公司来讲，是在线信誉监控(Online Reputation Monitoring)的重要手段，如果是负面的消息，则应该及时采取相应的措施，降低公司信誉损失，正面的消息则可借机营销，提升公司业绩；对于政府部门来讲，尽早地发现关于自然灾害事件、公共卫生疾病、反动谣言等消息，就能及时采取对应的措施，提前进行相应的决策和部署。目前，预测消息的爆发和流行主要可以分为基于内容特征的分析方法和基于自激励点过程的方法，基于内容特征的方法通过捕捉消息相关的内容特征随时间的异常变化，来发现突发的话题，这种方法需要消息的传播积累到一定程度，达到了显著的水平，客观上造成了爆发消息被检出的时间已经接近或滞后于消息爆发实际发生的时间，时效性不高；基于自激励点过程的方法，以消息个体为对象，将其转发时间序列建模成自激励的点过程，旨在刻画消息传播中的“富者愈富”、“时间衰减”等序列特征，与基于内容特征的方法相比，该方法时效性高，但是，基于自激励点过程的方法，仍存在以下缺点：第一，其特征是人为定义的，对数据的依赖很强，如...

【技术保护点】
一种基于循环神经网络的社交网络消息爆发检测方法，其特征在于，包括：步骤1，获取社交网络中用户发布与转发的历史消息，对所述历史消息进行预处理，获取历史转发时间序列特征；步骤2，将所述历史消息与所述历史转发时间序列特征输入循环神经网络训练，并生成预测模型；步骤3，实时采集用户发布与转发的消息，根据所述消息，生成转发时间序列特征，将所述转发时间序列特征输入到所述预测模型，生成特征表达，将所述特征表达输入到全连接神经网络进行分类，结果以softmax方式输出，以完成社交网络消息爆发检测。

【技术特征摘要】
1.一种基于循环神经网络的社交网络消息爆发检测方法，其特征在于，包括：步骤1，获取社交网络中用户发布与转发的历史消息，对所述历史消息进行预处理，获取历史转发时间序列特征；步骤2，将所述历史消息与所述历史转发时间序列特征输入循环神经网络训练，并生成预测模型；步骤3，实时采集用户发布与转发的消息，根据所述消息，生成转发时间序列特征，将所述转发时间序列特征输入到所述预测模型，生成特征表达，将所述特征表达输入到全连接神经网络进行分类，结果以softmax方式输出，以完成社交网络消息爆发检测。2.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法，其特征在于，所述步骤1中通过所述历史消息中的转发标识构建所述消息的所述历史转发时间序列特征，然后基于循环神经网络进行消息转发序列特征的抽取。3.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法，其特征在于，通过“//@用户名”标识或“RT@用户名”标识获取所述历史转发时间序列特征。4.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法，其特征在于，根据社交网络中API从社交网络中获取所述历史消息或所述消息。5.如权利要求1所述的基于循环神经网络的社交网络消息爆发检测方法，其特征在于，所述步骤1中预处理包括对所述历史消息进行垃圾过滤，保留存在内容、存在用户转发的历史消息。6.一种基于循环神经网络的社交网络消息爆发检测系统，...

【专利技术属性】
技术研发人员：笱程成，程学旗，杜攀，刘悦，沈华伟，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人