基于多数据流计算的社交网络热点事件检测方法技术

技术编号:18913422 阅读:24 留言:0更新日期:2018-09-12 02:55
本发明专利技术公开了一种基于多数据流计算的社交网络热点事件检测方法,包括下述步骤:对用户生成内容短文本数据进行词特征提取,并对该词特征进行主题分析;建立主题间的区分性和主题内的内聚性,以突发主题作为用户生成内容的特征;对用户生成内容、用户行为数据和用户画像数据,利用模糊集理论,建立自适应无监督的目标决策;对每个单数据流的数据进行粒化,并对多数据流进行多粒度结构的重要度和相关性度量,以对多个粒结构进行约简和相关性判断;对不同粒结构依据相关性和目标决策进行覆盖分析,从而建立多粒度空间的计算,检测热点事件。本发明专利技术能够实现无监督自适应的决策,解决多源异构数据计算问题,有效地检测社交网络中的热点事件。

Social network hot event detection method based on multi data flow computation

The invention discloses a method for detecting hot events in social networks based on multi-stream computing, which comprises the following steps: extracting word features from short text data of user-generated content, and performing topic analysis on the word features; establishing the distinction between topics and cohesion within topics, and generating burst topics as user-generated topics. Content features; for user generated content, user behavior data and user portrait data, the fuzzy set theory is used to establish an adaptive unsupervised goal decision-making; for each single data stream data granulation, and multi-granularity data streams for multi-granularity structure importance and correlation measurement, in order to reduce the multi-granularity structure Simplicity and relativity judgment, covering analysis of different granular structure according to relativity and target decision-making, so as to establish Multi-granular space calculation and detect hot events. The invention can realize unsupervised adaptive decision-making, solve the problem of multi-source heterogeneous data computing, and effectively detect hot events in social networks.

【技术实现步骤摘要】
基于多数据流计算的社交网络热点事件检测方法
本专利技术涉及自然语言处理和文本挖掘领域,特别涉及一种基于多数据流计算的社交网络热点事件检测方法。
技术介绍
热点事件具有“广泛关注性”、“不确定性”和“危害性”等特征,影响深远。社交网络中的热点事件检测显得尤为重要。热点事件检测不仅是话题检测、舆情分析、情感分析等研究的理论支撑和挑战,还是社交网络分析、网络舆情监控、电商平台商业分析、金融信息分析等重要应用的核心内容。比如,在社交网络分析中,通过分析社交网络的传播态势、用户行为等,以分析公众情感和用户影响力,以及识别意见领袖和种子事件;在网络舆情监控方面,可以进行公共事件网络舆情演化分析、热点话题发现与追踪、突发事件检测,等;在电商平台商业分析中,通过分析用户的内容数据和行为数据,可以进行商品和企业的口碑分析等。热点事件的检测对公共安全风险预警、网络舆情监控、商业平台决策等提供有效的解决方案。然而,在社交网络时代,社交网络数据除了具有大数据的海量性和动态性等特点,还具有稀疏性、多维异构性、不确定性、非线性、主题单一性等特点,这使得传统的方法不能很好地适应当前社交网络环境下的热点事件检测。一方面,由于社交网络数据多是短文本数据,相对于长文本数据而言,短文本多是口语描述,表述简单,不规范等,导致社交网络数据的高维性、稀疏性、语义相似性等。另一方面目前针对社交网络中的热点事件检测只考虑单类特征或者简单的特征结合。比如,微博内容数据中的特征词,用户行为数据中的评价次数、时间间隔,社交网络关系等。但是社交网络中的数据不但包含用户内容数据,用户行为数据,还包含用户画像信息数据等,如图2中的微博数据。这些数据都是对同一事件的不同视角的描述,包含结构化、半结构化和非结构化信息,对热点事件的发生有不同的决定性作用。对某类信息的忽略不仅会导致特征的片面,同时每类信息属于非线性关系,并且具有各自不同的特性和对事件的发生有不同的重要度影响。如果不考虑数据的相关性以及对事件检测的不同重要度,简单的特征结合必然会影响检测的效果。综上,基于多数据流的研究不仅能实现具有相关性和互补性的不同侧面的信息的有效利用,还能促进数据和算法的分布式并行计算,获得比单数据流更精准的结果。针对社交网络数据新的特性,研究基于多数据流计算的热点事件检测具有重要的理论意义和应用价值。
技术实现思路
本专利技术的目的在于克服现有技术中的缺点与不足,提供一种基于多数据流计算的社交网络热点事件检测方法,能够有效检测社交网络中的热点事件。为实现以上目的,本专利技术采取如下技术方案:一种基于多数据流计算的社交网络热点事件检测方法,包括以下步骤:S1、利用处理时序数据的深度学习方法对用户生成内容短文本数据进行词特征提取,对短文本词特征进行主题分析;S2、根据主题分析结果,建立主题间的区分性和主题内的内聚性,以此识别主题的突发性,以突发主题作为用户生成内容的特征进行事件检测;S3、对用户生成内容、用户行为数据和用户画像数据,利用模糊集理论,建立自适应无监督的目标决策;S4、对每个单数据流的数据进行粒化,并对多数据流进行多粒度结构的重要度和相关性度量,以对多个粒结构进行约简和相关性判断;S5、对不同粒结构依据相关性和目标决策进行覆盖分析,从而建立多粒度空间的计算,实现多源异构数据的热点事件检测。作为优选的技术方案,步骤S1中,所述的深度学习方法为LongShort-TermMemory,为保持词语在短文本中的时序性,采用LSTM提取全局词特征。作为优选的技术方案,步骤S1中,所述的用户生成内容短文本词特征F,分成全局词特征和局部词特征,表现形式为:其中,gi是全局词特征,G是全局词特征向量;nej是命名实体,NE是命名实体向量。作为优选的技术方案,步骤S1中,所述的主题分析是指由于短文本缺少训练数据,用文档主题生成模型LatentDirichletAllocation来识别短文本stext中潜藏的主题信息,所述文档主题生成模型为非监督机器学习模型。作为优选的技术方案,步骤S2的具体过程为:S21、计算每个主题ti在主题内和主题间的均值和方差,分别记为MeanIn(ti),MeanOut(ti),SIn2(ti),SOut2(ti),计算公式如下:其中word(ti)是主题ti中的词语,word(stext)是短文本stext中的词语,phi(wordj)是短文本在经过步骤S1的主题分析后,得到的topic-word分布向量中词语wordj对应的概率值phi;S22、利用主题内的方差SIn2(ti)和主题间的方差SOut2(ti)构建主题内聚性Intra-Distance(ti),该值越小,表明主题内特征表达主题性越集中,主题内聚性越高;具体计算公式如下:Intra-Distance(ti)=SIn2(ti)+SOut2(ti)(5)S23、利用主题内的均值MeanIn(ti)和主题间的均值MeanOut(ti)构建主题区分度Inter-Distance(ti),该值越大,表明不同主题的特征表达各自主题性差距越大,主题区分度越大;具体计算公式如下:Inter-Distance(ti)=(MeanIn(ti)-MeanOut(ti))2(6)S24、根据Fisher线性判别模型,利用主题区分度Inter-Distance(ti)和主题内聚性Intra-Distance(ti)的比值定义统计量G(ti),该值越大,表明主题ti的区分作用越明显,越能代表短文本的特征;具体计算公式如下:S25、为了提取主题特征的有效性,对比值定义统计量G(ti)进行归一化,将标准化后的值Zi作为主题特征的最终得分,得分越高,主题特征区分性越明显,从而作为特征进行事件检测。作为优选的技术方案,步骤S3的具体过程为:S31、分别对用户行为数据和用户画像数据对应的属性值进行求和,以获取用户行为特征和构建用户画像;S32、利用单数据流中每个数据对象x和它的K最近邻距离的均值来计算异常度sx;具体计算公式如下:其中,Distance(x,xt)是x和xt的欧几里得距离,下标t表示数据对象x的t近邻,KNNSet(x)是数据对象x的K最近邻的集合;S33、选择两个模糊集“正常”和“突发”,对所述两个模糊集利用异常度构建高斯隶属函数normal(sx)和abnormal(sx),其中参数a,b是未知的;S34、选择模糊熵构建模糊度的度量,模糊度越小的模糊集表达问题越客观且确定;具体度量公式如下:其中,N是数据对象的数量;S35、利用模糊度最小化原则,确定和优化隶属函数中的未知参数a,b;S36、模糊集和隶属函数根据优化的参数确定,从而确定该单数据流中关于数据对象x的异常度sx的隶属函数;S37、根据每个单数据流的隶属函数的交叠特征,确定多数据流的目标决策D,具体指两个隶属函数相等时的隶属函数值。作为优选的技术方案,步骤S4的具体过程为:S41、利用高斯核函数计算单数据流l中每个数据对象x之间的相似矩阵,从而诱导每个数据对象在单数据流中的模糊等价关系Rl将数据对象x粒化为等价信息粒Sl(x),所述信息粒Sl(x)构成单数据流的粒结构τl;S42、对每个数据流中的数据对象重复步骤S41,得到不同数据流对应的粒结构;S43本文档来自技高网
...

【技术保护点】
1.一种基于多数据流计算的社交网络热点事件检测方法,其特征在于,包括以下步骤:S1、利用处理时序数据的深度学习方法对用户生成内容短文本数据进行词特征提取,对短文本词特征进行主题分析;S2、根据主题分析结果,建立主题间的区分性和主题内的内聚性,以此识别主题的突发性,以突发主题作为用户生成内容的特征进行事件检测;S3、对用户生成内容、用户行为数据和用户画像数据,利用模糊集理论,建立自适应无监督的目标决策;S4、对每个单数据流的数据进行粒化,并对多数据流进行多粒度结构的重要度和相关性度量,以对多个粒结构进行约简和相关性判断;S5、对不同粒结构依据相关性和目标决策进行覆盖分析,从而建立多粒度空间的计算,实现多源异构数据的热点事件检测。

【技术特征摘要】
1.一种基于多数据流计算的社交网络热点事件检测方法,其特征在于,包括以下步骤:S1、利用处理时序数据的深度学习方法对用户生成内容短文本数据进行词特征提取,对短文本词特征进行主题分析;S2、根据主题分析结果,建立主题间的区分性和主题内的内聚性,以此识别主题的突发性,以突发主题作为用户生成内容的特征进行事件检测;S3、对用户生成内容、用户行为数据和用户画像数据,利用模糊集理论,建立自适应无监督的目标决策;S4、对每个单数据流的数据进行粒化,并对多数据流进行多粒度结构的重要度和相关性度量,以对多个粒结构进行约简和相关性判断;S5、对不同粒结构依据相关性和目标决策进行覆盖分析,从而建立多粒度空间的计算,实现多源异构数据的热点事件检测。2.根据权利要求1所述的基于多数据流计算的社交网络热点事件检测方法,其特征在于,步骤S1中,所述的深度学习方法为LongShort-TermMemory,为保持词语在短文本中的时序性,采用LSTM提取全局词特征。3.根据权利要求1所述的基于多数据流计算的社交网络热点事件检测方法,其特征在于,步骤S1中,所述的用户生成内容短文本词特征F,分成全局词特征和局部词特征,表现形式为:其中,gi是全局词特征,G是全局词特征向量;nej是命名实体,NE是命名实体向量。4.根据权利要求1所述的基于多数据流计算的社交网络热点事件检测方法,其特征在于,步骤S1中,所述的主题分析是指由于短文本缺少训练数据,用文档主题生成模型LatentDirichletAllocation来识别短文本stext中潜藏的主题信息,所述文档主题生成模型为非监督机器学习模型。5.根据权利要求1所述的基于多数据流计算的社交网络热点事件检测方法,其特征在于,步骤S2的具体过程为:S21、计算每个主题ti在主题内和主题间的均值和方差,分别记为MeanIn(ti),MeanOut(ti),SIn2(ti),SOut2(ti),计算公式如下:其中word(ti)是主题ti中的词语,word(stext)是短文本stext中的词语,phi(wordj)是短文本在经过步骤S1的主题分析后,得到的topic-word分布向量中词语wordj对应的概率值phi;S22、利用主题内的方差SIn2(ti)和主题间的方差SOut2(ti)构建主题内聚性Intra-Distance(ti),该值越小,表明主题内特征表达主题性越集中,主题内聚性越高;具体计算公式如下:Intra-Distance(ti)=SIn2(ti)+SOut2(ti)(5)S23、利用主题内的均值MeanIn(ti)和主题间的均值MeanOut(ti)构建主题区分度Inter-Distance(ti),该值越大,表明不同主题的特征表达各自主题性差距越大,主题区分度越大;具体计算公式如下:Inter-Distance(ti)=(MeanIn(ti)-MeanOut(ti))2(6)S24、根据Fisher线性判别模型,利用主题区分度Inter-Distance(ti)和主题内聚性Intra-Distance(ti)的比值定义统计量G(ti),该值越大,表明主题ti的区分作用越明显,越能代表短文本的特征;具体计算公式如下:S25、为了提取主题特征的有效性,对比值定义统计量G(ti)进行归一化,将标准化后的值Zi作为主题特征的最终得分,得分越高,主题特征区分性越明显,从而作为特征进行事件检测。6.根据权利要求1所述的基于多数据流计算的社交网络热点事件检测方法,其特征在于,步骤S3的具体过程为:S31、...

【专利技术属性】
技术研发人员:李风环王振宇郭泽豪
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1