当前位置: 首页 > 专利查询>福州大学专利>正文

基于话题簇动量模型的新兴热点话题检测系统及方法技术方案

技术编号:17667674 阅读:60 留言:0更新日期:2018-04-11 06:00
本发明专利技术提出一种针对社交媒体的动量模型的新兴热点话题检测系统及方法。该系统包括:一增量聚类算法,在于聚类出各个热点话题,为加速后面的人工标注过程;一正态分布累积概率求解,在于刻画话题的质量模型;一话题增长率求解过程,在于求解话题的速度模型;动态突发关键词的重叠率,用来衡量话题的新颖性;话题重要性衡量指标,使用话题用户和重要用户重叠率来衡量,为了衡量话题重要性;一个DBSCAN离群点检测算法,为了发现异常点来表示新兴热点话题。本发明专利技术能够利用社交媒介中数据的各维度作为特征,并刻画新兴热点话题的趋势,从而检测出新兴热点话题。

A new hot topic detection system and method based on topic cluster momentum model

The invention provides a new hot topic detection system and method for the momentum model of social media. The system includes: an incremental clustering algorithm, clustering is the hot topic for manual annotation process accelerated back; a normal distribution of cumulative probability solution lies in the quality model to describe the topic; topic the growth rate of the solution process, is the speed model for solving the topic; the overlap rate dynamic burst keywords, used to measure the novelty the importance of topic topic; measure, using the topic of users and important users overlap rate to measure, in order to measure the importance of topic; a DBSCAN outlier detection algorithm, in order to find abnormal points to represent new hot topic. The invention can take advantage of the dimensions of data in the social media as a feature, and depict the trend of new hot topics, so as to detect new hot topics.

【技术实现步骤摘要】
基于话题簇动量模型的新兴热点话题检测系统及方法
本专利技术属于自然语言处理领域,更具体地,涉及一种针对社交媒体的动量模型的新兴热点话题检测系统及方法。
技术介绍
当前,存在着一些基于关键词分布的方法,其基本思想是刻画在时间序列上词语分布的特点,寻找词频分布特征发生突变的词语。过去稀疏现在频繁出现的词语被视为新兴关键词,往往与新兴话题相关联。当前,还存在着一些基于主题模型的方法挖掘文档与词之间的隐藏关系,能够发现强一致性的话题,并结合时序、关键词分布特征等刻画话题演变趋势,但是主题模型常需要设置话题个数,这并不适合于话题个数不定的社交媒体数据场景。当前,还存在着一些基于聚类的新兴热点话题检测方法,在话题检测方面,聚类算法是一个有效的方法。聚类算法常基于文档相似度将与同一事件相关的文档聚成簇,每个文档簇表示一个话题。目前话题聚类方法主要从聚类的算法、相似度度量、聚类的对象以及话题簇特征进行研究。然而,这些方法模型在不同程度上解决了上述的后两个挑战,但也有相对不足之处。基于关键词分布的方法易出现无关的错误的关键词,基于主题模型的方法相对较少地利用社交媒体的丰富特征,基于聚类的方法在聚类的准确性和话题簇特征刻画上都有需要改进的地方。针对上述的不足之处,我们在增量聚类发现话题的基础上,提出了一种使用动量思想刻画话题发展趋势特征的模型,然后探讨新兴话题的数据分布特点,分别使用有监督的分类方法和无监督的异常检测方法预测新兴话题。
技术实现思路
因此,本专利技术的目的是提出一种针对社交媒体的基于话题簇动量模型的新兴热点话题检测方法,能够从中文微博数据的各个角度有效提取特征,最终检测出新兴热点话题。本专利技术采用以下技术方案:一种基于话题簇动量模型的新兴热点话题检测系统,其包括:一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,使用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;以及DBSCAN离群点检测算法,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。Z-score公式:其中x是测量值,μ和S分别是所有预测值的均值和标准差。z分数是一种可以看出某分数在分布中相对位置的方法。将成正态分布的数据中的原始分数转换为z分数,就可以通过查阅z分数在正态曲线下面积的表格来得知平均数与z分数之间的面积,进而得知原始分数在数据集合中的百分等级。在本专利技术一实施例中,所述数据预处理模块,用于去除文本中的链接,特殊字符,表情符号及标点符号。在本专利技术一实施例中,从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。本专利技术还提供一种基于话题簇动量模型的新兴热点话题检测方法,其包括以下步骤:步骤S1:描述数据预处理模块如何进行数据的预处理;步骤S2:采用传统TF-IDF计算关键词的权重,并将文本转换成文本空间向量;采用文本空间向量的余弦相似度;最新文档和话题计算相似度时,使用文档和话题簇中心向量相比较;同时,在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇;在传统TF-IDF算法中对于在某一特定文件里的词语来说,其重要性可表示为:以上式子中tfij为词语出现的频率;是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和;某一特定词语的IDF,由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:上式中,|D|为语料库中的文件总数;:包含词语的文件数目,即的文件数目;如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用然后;某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,产生出高权重的TF-IDF;步骤S3:话题簇基础上采用动量思想综合利用微博数据多个特征方面上的增长率和变化量以刻画话题热度的变化趋势;步骤S4:给定特定时刻点的话题集,每个话题ci在相关用户数方面的变化趋势PTU,相关微博数方面的变化趋势PTW,相关微博被转发数方面上的变化趋势PRT,相关微博影响力累计值方面上的变化趋势PINF,话题新颖性overlapw,话题重要性overlapu,使用DBSCAN及特征对数据分布进行考察,发现离群点,筛除局部密度稀疏但是并非全局密度稀疏的数据点;从而检测出新兴热点话题。DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。在本专利技术一实施例中,步骤S1中预处理包括以下步骤:步骤S11:去除微博内容中网页链接;步骤S12:去除微博内容中的表情字符;步骤S13:去除微博内容常用词;步骤S15:过滤掉长度小于5个字符微博;步骤S16:过滤掉发表时间错误或者时间过于久远的微博;步骤S17:过滤掉缺失用户Uid的微博。在本专利技术一实施例中,步骤S3包括以下具体步骤:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。与现有技术相比,本专利技术能够利用社交媒介中数据的各维度作为特征,并刻画新兴热点话题的趋势,从而检测出新兴热点话题。附图说明图1为本专利技术一实施例在社交媒体文档集中的新兴热点话题检测的示意配置图。具体实施方式下面结合附图和具体实施例对本专利技术做进一步解释说明。一种基于话题簇动量模型的新兴热点话题检测系统,其包括:一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,使用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;以及DBSCAN离群点检测算法,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。在本专利技术一实施例中,所述数本文档来自技高网...
基于话题簇动量模型的新兴热点话题检测系统及方法

【技术保护点】
一种基于话题簇动量模型的新兴热点话题检测系统,其特征在于:包括:一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,适用Z‑score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;以及DBSCAN离群点检测算法,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。

【技术特征摘要】
1.一种基于话题簇动量模型的新兴热点话题检测系统,其特征在于:包括:一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,适用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;以及DBSCAN离群点检测算法,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。2.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统,其特征在于:所述数据预处理模块,用于去除文本中的链接,特殊字符,表情符号及标点符号。3.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统,其特征在于:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式求解最终的动量模型。4.一种基于话题簇动量模型的新兴热点话题检测方法,其特征在于:包括以下步骤:步骤S1:描述数据预处理模...

【专利技术属性】
技术研发人员:廖祥文陈国龙黄海平杨定达
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1