基于时间序列的话题发展聚类分析系统和方法技术方案

技术编号：18711124 阅读：41 留言：0更新日期：2018-08-21 22:43

本发明专利技术提供一种基于时间序列的话题发展聚类分析系统和方法，方法包括：采集话题形成累计阅读量时间序列；对上述时间序列进行前向差分得到话题热度时间序列；判断话题是否处于衰退期；若不处于衰退期继续话题采集；若处于衰退期，分别计算各话题间的S‑Euc和S‑DTW，对所有话题进行聚类。系统包括：数据采集部；数据处理部，对累计阅读量时间序列进行前向差分处理，判断话题是否处于衰退期，将不处于衰退期的话题存储到第一话题存储库，将处于衰退期的话题存储到第二话题存储库；时间序列距离计算部，分别计算各话题间的S‑Euc和S‑DTW；话题聚类部，对所有话题进行聚类。上述系统和方法精确度高、聚类效果好。

Clustering analysis system and method of topic development based on time series

The invention provides a topic development clustering analysis method and method based on time series. The method comprises: collecting topic to form a cumulative reading time series; obtaining topic heat time series by forward difference of the above time series; judging whether the topic is in recession; continuing topic collection if not in recession; If we are in a recession, we calculate the S Euc and S DTW of each topic separately, and cluster all the topics. The system includes: Data Acquisition Department; Data Processing Department, which performs forward differential processing on the cumulative reading time series to determine whether the topic is in recession, stores the topic not in recession into the first topic store, and stores the topic in recession into the second topic store; Time Series Distance Calculation Department. The S Euc and S DTW of each topic are calculated respectively, and the topic clustering section is used to cluster all the topics. The above system and method have high accuracy and good clustering effect.

全部详细技术资料下载

【技术实现步骤摘要】
基于时间序列的话题发展聚类分析系统和方法
本专利技术涉及舆情监控分析
，更为具体地，涉及一种基于时间序列的话题发展聚类分析系统和方法。
技术介绍
当前社交网络新媒体迅猛发展，搜索引擎、社交网络等得到大量广泛使用，各种各样的信息以惊人的速度在全球范围内传播，瞬息万变的话题雨后春笋般在互联网上层出不穷，深刻地影响着人们的生活和社会的方方面面。这些话题随着时间不断变化，形成了典型的时间序列数据。时间序列的聚类算法是分析预测互联网热点话题热度随时间变化趋势的重要过程。聚类分析，就是把对象按照性质上的亲疏程度分成多个类或簇，使得类或簇内的数据相似度最大化，类或簇间的数据相似度最小化，目前聚类分析已成功应用到信息检索、数据挖掘等多个领域。现有时间序列聚类研究中时间序列距离多用闵科夫斯基距离、动态时间弯曲距离、最长公共子序列和编辑距离等等。其中，动态时间弯曲距离支持时间轴上的形变，故常用在不等长时间序列距离度量上。当前热点话题时间序列聚类算法应用较多的有K-means、FCM(模糊C均值)、层次聚类和基于基础算法进行的各种改进算法如K_SC(K-spectralcentroid)、WKSC(Wavelet-basedK_SC)等。但是，这些聚类算法所用数据源均以“天”为单位，时效性不强。欧式距离(Euclideandistance，Euc)是两个序列距离度量的最简单常用的方法，如时间序列x和y的欧式距离为：如图1a所示，该距离不能在时间轴上进行伸缩变换，不能计算不等长时间序列之间的距离，如对于{a,a,b,C}和{a,b,c,c}，尽管两个序列相似性很高，但是其欧...

【技术保护点】
1.一种基于时间序列的话题发展聚类分析系统，其特征在于，包括：数据采集部，采用预定采集周期从网络、微博上采集话题，所述话题包括话题URL、话题名称、累计阅读量时间序列，其中，所述累计阅读量时间序列为不同采集时间对应的话题累计阅读量构成的时间序列；数据处理部，包括差分模块、第一判断模块、第一话题存储库和第二话题存储库，所述差分模块对每一个话题的累计阅读量时间序列进行前向差分得到每一个话题的话题热度时间序列，所述第一判断模块根据所述话题热度时间序列判断话题是否处于衰退期，将不处于衰退期的话题存储到第一话题存储库，将处于衰退期的话题存储到第二话题存储库；时间序列距离计算部，包括分段模块、时间序列距离计算第一模块和时间序列距离计算第二模块，所述分段模块对每一个话题热度时间序列按照自然日进行分段，所述时间序列距离计算第一模块和时间序列距离计算第二模块分别计算各话题之间的分段欧式距离(S‑Euc)和分段动态弯曲距离(S‑DTW)；话题聚类部，基于各话题之间S‑Euc和S‑DTW采用聚类方法对所有话题进行聚类，其中，所述时间序列距离计算第一模块包括第一天数计数单元、第一判断单元、第一时间段划分单元、...

【技术特征摘要】
1.一种基于时间序列的话题发展聚类分析系统，其特征在于，包括：数据采集部，采用预定采集周期从网络、微博上采集话题，所述话题包括话题URL、话题名称、累计阅读量时间序列，其中，所述累计阅读量时间序列为不同采集时间对应的话题累计阅读量构成的时间序列；数据处理部，包括差分模块、第一判断模块、第一话题存储库和第二话题存储库，所述差分模块对每一个话题的累计阅读量时间序列进行前向差分得到每一个话题的话题热度时间序列，所述第一判断模块根据所述话题热度时间序列判断话题是否处于衰退期，将不处于衰退期的话题存储到第一话题存储库，将处于衰退期的话题存储到第二话题存储库；时间序列距离计算部，包括分段模块、时间序列距离计算第一模块和时间序列距离计算第二模块，所述分段模块对每一个话题热度时间序列按照自然日进行分段，所述时间序列距离计算第一模块和时间序列距离计算第二模块分别计算各话题之间的分段欧式距离(S-Euc)和分段动态弯曲距离(S-DTW)；话题聚类部，基于各话题之间S-Euc和S-DTW采用聚类方法对所有话题进行聚类，其中，所述时间序列距离计算第一模块包括第一天数计数单元、第一判断单元、第一时间段划分单元、对齐单元和第一距离计算单元，所述第一天数计数单元计算任意两个话题的话题热度时间序列持续的天数；所述第一判断单元判断两个话题热度时间序列的持续的天数是否相同，如果相同，发送第一信号给对齐单元，如果不相同，发送第二信号给第一时间段划分单元；所述第一时间段划分单元接收到第二信号后，将两个话题热度时间序列分成三个时间段并发送第三信号给对齐单元，第一时间段为第一天至较短话题持续天数的前一天，第二时间段为较短话题持续天数的当天，第三时间段为较短话题持续天数的后一天至较长话题持续天数；所述对齐单元收到第一信号时，采用0填充对齐两个话题热度时间序列第一天和最后一天的数据，并发送第四信号给第一距离计算单元，所述对齐单元收到第三信号时，采用0填充对齐两个话题热度时间序列第一天的数据以及较短的话题热度时间序列最后一天的数据，并发送第五信号给第一距离计算单元；所述第一距离计算单元接收第四信号后，计算对齐后两个话题热度时间序列的S-Euc，所述第一距离计算单元接收第五信号后，按照第一时间段划分单元划分的三个时间段分段计算两个话题热度时间序列的时间序列距离，将三个时间段的时间序列距离相加得到两个话题的S-Euc，其中，所述时间序列距离计算第二模块包括第二天数计数单元、第二判断单元、第二时间段划分单元和第二距离计算单元，其中，所述第二天数计数单元计算任意两个话题的话题热度时间序列持续的天数；所述第二判断单元判断两个话题热度时间序列的持续的天数是否相同，如果相同，发送第六信号给第二距离计算单元，如果不相同，发送第七信号给第二时间段划分单元；所述第二时间段划分单元接收到第七信号后，将两个话题热度时间序列分成两个时间段并发送第八信号给第二距离计算单元，第一时间段为第一天至较短话题持续天数当天，第二时间段为较短话题持续天数的后一天至较长话题持续天数；所述第二距离计算单元接收第六信号后，计算两个话题热度时间序列的S-DTW，所述第二距离计算单元接收第八信号后，按照时间段划分单元划分的两个时间段分段计算两个话题热度时间序列的时间序列距离，将两个时间段的时间序列距离相加得到两个话题的S-DTW。2.根据权利要求1所述的聚类分析系统，其特征在于，还包括：聚类效果评价部，根据至少一个聚类效果评定指标确定最佳聚类个数，包括：轮廓系数评价单元，计算每一次聚类的轮廓系数，得到轮廓系数随聚类个数变化的曲线，将轮廓系数极大值或最大值对应的聚类个数作为最佳聚类个数，与轮廓系数极大值或最大值对应的聚类结果作为所有话题的聚类结果。3.根据权利要求2所述的聚类分析系统，其特征在于，所述聚类效果评价部还包括聚簇紧密性评价单元，当轮廓系数极大值对应的聚类个数有多个时，选择聚簇紧密性大的聚类个数作为最佳聚类个数。4.根据权利要求1所述的聚类分析系统，其特征在于，所述第一判断模块包括：第三判断单元，判断每一个话题延续时间是否大于48小时，如果所述话题的延续时间不大于48小时，数据采集部继续对所述话题进行采集，将所述话题存储到第一话题存储库，如果所述话题的延续时间大于48小时，将所述话题发送到拟合单元；拟合单元，将第三判断单元发送的话题...

【专利技术属性】
技术研发人员：殷复莲，张贝贝，刘晓薇，苏沛，王颜颜，白雪松，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人