The invention provides a new hot topic detection system and method for the momentum model of social media. The system includes: an incremental clustering algorithm, clustering is the hot topic for manual annotation process accelerated back; a normal distribution of cumulative probability solution lies in the quality model to describe the topic; topic the growth rate of the solution process, is the speed model for solving the topic; the overlap rate dynamic burst keywords, used to measure the novelty the importance of topic topic; measure, using the topic of users and important users overlap rate to measure, in order to measure the importance of topic; a DBSCAN outlier detection algorithm, in order to find abnormal points to represent new hot topic. The invention can take advantage of the dimensions of data in the social media as a feature, and depict the trend of new hot topics, so as to detect new hot topics.
【技术实现步骤摘要】
基于话题簇动量模型的新兴热点话题检测系统及方法
本专利技术属于自然语言处理领域,更具体地,涉及一种针对社交媒体的动量模型的新兴热点话题检测系统及方法。
技术介绍
当前,存在着一些基于关键词分布的方法,其基本思想是刻画在时间序列上词语分布的特点,寻找词频分布特征发生突变的词语。过去稀疏现在频繁出现的词语被视为新兴关键词,往往与新兴话题相关联。当前,还存在着一些基于主题模型的方法挖掘文档与词之间的隐藏关系,能够发现强一致性的话题,并结合时序、关键词分布特征等刻画话题演变趋势,但是主题模型常需要设置话题个数,这并不适合于话题个数不定的社交媒体数据场景。当前,还存在着一些基于聚类的新兴热点话题检测方法,在话题检测方面,聚类算法是一个有效的方法。聚类算法常基于文档相似度将与同一事件相关的文档聚成簇,每个文档簇表示一个话题。目前话题聚类方法主要从聚类的算法、相似度度量、聚类的对象以及话题簇特征进行研究。然而,这些方法模型在不同程度上解决了上述的后两个挑战,但也有相对不足之处。基于关键词分布的方法易出现无关的错误的关键词,基于主题模型的方法相对较少地利用社交媒体的丰富特征,基于聚类的方法在聚类的准确性和话题簇特征刻画上都有需要改进的地方。针对上述的不足之处,我们在增量聚类发现话题的基础上,提出了一种使用动量思想刻画话题发展趋势特征的模型,然后探讨新兴话题的数据分布特点,分别使用有监督的分类方法和无监督的异常检测方法预测新兴话题。
技术实现思路
因此,本专利技术的目的是提出一种针对社交媒体的基于话题簇动量模型的新兴热点话题检测方法,能够从中文微博数据的各个角度有效提取特征,最 ...
【技术保护点】
一种基于话题簇动量模型的新兴热点话题检测系统,其特征在于:包括:一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,适用Z‑score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;以及DBSCAN离群点检测算法,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。
【技术特征摘要】
1.一种基于话题簇动量模型的新兴热点话题检测系统,其特征在于:包括:一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,适用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;以及DBSCAN离群点检测算法,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。2.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统,其特征在于:所述数据预处理模块,用于去除文本中的链接,特殊字符,表情符号及标点符号。3.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统,其特征在于:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式求解最终的动量模型。4.一种基于话题簇动量模型的新兴热点话题检测方法,其特征在于:包括以下步骤:步骤S1:描述数据预处理模...
【专利技术属性】
技术研发人员:廖祥文,陈国龙,黄海平,杨定达,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。