The invention discloses a method for detecting hot events in social networks based on multi-stream computing, which comprises the following steps: extracting word features from short text data of user-generated content, and performing topic analysis on the word features; establishing the distinction between topics and cohesion within topics, and generating burst topics as user-generated topics. Content features; for user generated content, user behavior data and user portrait data, the fuzzy set theory is used to establish an adaptive unsupervised goal decision-making; for each single data stream data granulation, and multi-granularity data streams for multi-granularity structure importance and correlation measurement, in order to reduce the multi-granularity structure Simplicity and relativity judgment, covering analysis of different granular structure according to relativity and target decision-making, so as to establish Multi-granular space calculation and detect hot events. The invention can realize unsupervised adaptive decision-making, solve the problem of multi-source heterogeneous data computing, and effectively detect hot events in social networks.
【技术实现步骤摘要】
基于多数据流计算的社交网络热点事件检测方法
本专利技术涉及自然语言处理和文本挖掘领域,特别涉及一种基于多数据流计算的社交网络热点事件检测方法。
技术介绍
热点事件具有“广泛关注性”、“不确定性”和“危害性”等特征,影响深远。社交网络中的热点事件检测显得尤为重要。热点事件检测不仅是话题检测、舆情分析、情感分析等研究的理论支撑和挑战,还是社交网络分析、网络舆情监控、电商平台商业分析、金融信息分析等重要应用的核心内容。比如,在社交网络分析中,通过分析社交网络的传播态势、用户行为等,以分析公众情感和用户影响力,以及识别意见领袖和种子事件;在网络舆情监控方面,可以进行公共事件网络舆情演化分析、热点话题发现与追踪、突发事件检测,等;在电商平台商业分析中,通过分析用户的内容数据和行为数据,可以进行商品和企业的口碑分析等。热点事件的检测对公共安全风险预警、网络舆情监控、商业平台决策等提供有效的解决方案。然而,在社交网络时代,社交网络数据除了具有大数据的海量性和动态性等特点,还具有稀疏性、多维异构性、不确定性、非线性、主题单一性等特点,这使得传统的方法不能很好地适应当前社交网络环境下的热点事件检测。一方面,由于社交网络数据多是短文本数据,相对于长文本数据而言,短文本多是口语描述,表述简单,不规范等,导致社交网络数据的高维性、稀疏性、语义相似性等。另一方面目前针对社交网络中的热点事件检测只考虑单类特征或者简单的特征结合。比如,微博内容数据中的特征词,用户行为数据中的评价次数、时间间隔,社交网络关系等。但是社交网络中的数据不但包含用户内容数据,用户行为数据,还包含用户画像信息数 ...
【技术保护点】
1.一种基于多数据流计算的社交网络热点事件检测方法,其特征在于,包括以下步骤:S1、利用处理时序数据的深度学习方法对用户生成内容短文本数据进行词特征提取,对短文本词特征进行主题分析;S2、根据主题分析结果,建立主题间的区分性和主题内的内聚性,以此识别主题的突发性,以突发主题作为用户生成内容的特征进行事件检测;S3、对用户生成内容、用户行为数据和用户画像数据,利用模糊集理论,建立自适应无监督的目标决策;S4、对每个单数据流的数据进行粒化,并对多数据流进行多粒度结构的重要度和相关性度量,以对多个粒结构进行约简和相关性判断;S5、对不同粒结构依据相关性和目标决策进行覆盖分析,从而建立多粒度空间的计算,实现多源异构数据的热点事件检测。
【技术特征摘要】
1.一种基于多数据流计算的社交网络热点事件检测方法,其特征在于,包括以下步骤:S1、利用处理时序数据的深度学习方法对用户生成内容短文本数据进行词特征提取,对短文本词特征进行主题分析;S2、根据主题分析结果,建立主题间的区分性和主题内的内聚性,以此识别主题的突发性,以突发主题作为用户生成内容的特征进行事件检测;S3、对用户生成内容、用户行为数据和用户画像数据,利用模糊集理论,建立自适应无监督的目标决策;S4、对每个单数据流的数据进行粒化,并对多数据流进行多粒度结构的重要度和相关性度量,以对多个粒结构进行约简和相关性判断;S5、对不同粒结构依据相关性和目标决策进行覆盖分析,从而建立多粒度空间的计算,实现多源异构数据的热点事件检测。2.根据权利要求1所述的基于多数据流计算的社交网络热点事件检测方法,其特征在于,步骤S1中,所述的深度学习方法为LongShort-TermMemory,为保持词语在短文本中的时序性,采用LSTM提取全局词特征。3.根据权利要求1所述的基于多数据流计算的社交网络热点事件检测方法,其特征在于,步骤S1中,所述的用户生成内容短文本词特征F,分成全局词特征和局部词特征,表现形式为:其中,gi是全局词特征,G是全局词特征向量;nej是命名实体,NE是命名实体向量。4.根据权利要求1所述的基于多数据流计算的社交网络热点事件检测方法,其特征在于,步骤S1中,所述的主题分析是指由于短文本缺少训练数据,用文档主题生成模型LatentDirichletAllocation来识别短文本stext中潜藏的主题信息,所述文档主题生成模型为非监督机器学习模型。5.根据权利要求1所述的基于多数据流计算的社交网络热点事件检测方法,其特征在于,步骤S2的具体过程为:S21、计算每个主题ti在主题内和主题间的均值和方差,分别记为MeanIn(ti),MeanOut(ti),SIn2(ti),SOut2(ti),计算公式如下:其中word(ti)是主题ti中的词语,word(stext)是短文本stext中的词语,phi(wordj)是短文本在经过步骤S1的主题分析后,得到的topic-word分布向量中词语wordj对应的概率值phi;S22、利用主题内的方差SIn2(ti)和主题间的方差SOut2(ti)构建主题内聚性Intra-Distance(ti),该值越小,表明主题内特征表达主题性越集中,主题内聚性越高;具体计算公式如下:Intra-Distance(ti)=SIn2(ti)+SOut2(ti)(5)S23、利用主题内的均值MeanIn(ti)和主题间的均值MeanOut(ti)构建主题区分度Inter-Distance(ti),该值越大,表明不同主题的特征表达各自主题性差距越大,主题区分度越大;具体计算公式如下:Inter-Distance(ti)=(MeanIn(ti)-MeanOut(ti))2(6)S24、根据Fisher线性判别模型,利用主题区分度Inter-Distance(ti)和主题内聚性Intra-Distance(ti)的比值定义统计量G(ti),该值越大,表明主题ti的区分作用越明显,越能代表短文本的特征;具体计算公式如下:S25、为了提取主题特征的有效性,对比值定义统计量G(ti)进行归一化,将标准化后的值Zi作为主题特征的最终得分,得分越高,主题特征区分性越明显,从而作为特征进行事件检测。6.根据权利要求1所述的基于多数据流计算的社交网络热点事件检测方法,其特征在于,步骤S3的具体过程为:S31、...
【专利技术属性】
技术研发人员:李风环,王振宇,郭泽豪,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。