一种话题生命周期曲线聚类方法、系统及应用技术方案

技术编号:34338319 阅读:73 留言:0更新日期:2022-07-31 03:25
本发明专利技术属于网络空间认知技术领域,公开了一种话题生命周期曲线聚类方法、系统及应用,利用K

A clustering method, system and application of topic life cycle curve

【技术实现步骤摘要】
一种话题生命周期曲线聚类方法、系统及应用


[0001]本专利技术属于网络空间认知
,尤其涉及一种话题生命周期曲线聚类方法、系统及应用。

技术介绍

[0002]基于话题生命周期曲线的聚类分析研究极少,现有关于话题聚类分析的技术大多都是基于文本内容的相似性,依据同类的文档相似度较大,而不同类的文档相似度较小的原理利用各种聚类算法将具有相似文本内容信息的新闻、话题等聚集到一起,进而完成对话题内容特征的分析。现有技术主要存在以下几个方面的缺点:1)现有话题聚类分析技术主要是针对文本内容进行研究,对其进行分词、特征提取等一系列操作再选取合适的聚类算法,仅考虑内容特征上的相似,并未比较趋势之间的异同,分析维度不完整,无法对趋势相同的不同话题进行总结分析;2)现有话题分析技术过于依赖文本信息的质量,然而网络文本内容质量参差不齐,数据清洗难度大;3)文本内容的聚类是针对于话题的静态研究,不能体现话题数据中的时序性特征,忽略了对话题动态变化的分析。因此,亟需设计一种新的话题生命周期曲线聚类方法及系统,以弥补现有技术存在的缺陷。
[0003]通过上述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种话题生命周期曲线聚类方法,其特征在于,所述话题生命周期曲线聚类方法包括:利用K

Shape算法对时间序列数据进行聚类,采用z

normalization对时间序列数据进行标准化处理,再将处理后的数据集进行K

Shape聚类,利用轮廓系数确定最佳K值,通过循环当轮廓系数值最好时的K值为最佳分类,输出聚类结果,并输出能够代表每个簇生命周期曲线的中心曲线。2.如权利要求1所述的话题生命周期曲线聚类方法,其特征在于,所述话题生命周期曲线聚类方法包括以下步骤:步骤一,统计话题每日贴子数,绘制话题生命周期曲线图;步骤二,选取合适的时间跨度作为待分析的话题生命周期长度;步骤三,利用z

normalization对数据进行标准化处理;步骤四,设定合适的初始化循环条件及模型参数进行K

Shape聚类;步骤五,轮廓系数确定最佳K值,输出聚类结果及簇中心曲线。3.如权利要求2所述的话题生命周期曲线聚类方法,其特征在于,所述步骤一中,通过话题关键词与帖子内容关键词匹配,找到与话题相关的所有帖子,统计话题每日相关贴子数,利用Python matplotlib绘制话题生命周期曲线图;所述步骤二中的选取合适时间跨度作为待分析的话题生命周期长度包括:默认设置时间跨度为三个月,根据实际数据进行调整,若话题数据集生命周期较短的偏多,适当选取较小的时间跨度;反之若大多数是长生命周期的话题,则选取较大的时间跨度。4.如权利要求2所述的话题生命周期曲线聚类方法,其特征在于,所述步骤三中的利用z

normalization对数据进行标准化处理的计算方式如下:对于样本序列x1,x2,

,x
n
,经过如下公式的变化:产生新序列z1,z2,

,z
n
,是均值为0,方差为1的无量纲数据;其中,x
i
表示需要被标准化的原始数据值,μ表示总体样本空间平均值,σ表示总体样本空间标准差。5.如权利要求2所述的话题生命周期曲线聚类方法,其特征在于,所述步骤四中的设定合适的初始化循环条件及模型参数进行K

Shape聚类包括:所述初始化循环条件及模型参数根据具体数据调整,对话题生命周期曲线进行相似度距离计算;使用DTW计算序列距离,在匹配时允许时间上的伸缩,在序列集合中找到最佳匹配的序列。6.如权利要求2所述的话题生命周期曲线聚类方法,其特征在于,所述步骤五中,使用轮廓系数作为K

Shape聚类的效果好坏评估指标,利用样本到同一聚类簇中各数据点之间的平均距离比上样本到其他聚类簇中各数据点之间的平均距离;计算结果范围在

1到1之间,分数越...

【专利技术属性】
技术研发人员:罗琛石珺李志鹏杨阳朝廖勇沈宜吴哲
申请(专利权)人:深圳市网联安瑞网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1