一种基于K-均值聚类算法的初始聚类中心确定方法及装置制造方法及图纸

技术编号：22075835 阅读：58 留言：0更新日期：2019-09-12 14:10

本发明专利技术提供一种基于K‑均值聚类算法的初始聚类中心确定方法及装置，能够快速、准确地从大量的微博数据中发现舆情热点话题。所述方法包括：获取数据对象集合，其中，所述数据对象集合包括：微博文档集合；确定数据对象集合中每个数据对象与其它数据对象间的平均相似度，获取平均相似度大于等于预先设定的密度阈值的数据对象作为核心对象；从核心对象中选取彼此间最不相似的多个核心对象作为K‑均值聚类算法的初始聚类中心，以便K‑均值聚类算法根据得到的初始聚类中心进行聚类。本发明专利技术涉及机器学习领域。

A Method and Device for Determining Initial Clustering Centers Based on K-Mean Clustering Algorithms

全部详细技术资料下载

【技术实现步骤摘要】
一种基于K-均值聚类算法的初始聚类中心确定方法及装置
本专利技术涉及机器学习领域，特别是指一种基于K-均值聚类算法的初始聚类中心确定方法及装置。
技术介绍
随着媒体技术的不断进步和信息传播渠道的日趋多元化，当今社会进入了“人人都是新闻传播者”的自媒体时代。广大网民参与言论的热情高涨，特别是微博的兴起，网民可以通过电脑、手机随时随地发表言论。自新浪微博—Twitter类的新兴网络应用推出以来，注册用户、月活跃用户及每日用户发博量增长极快，微博上的舆论已成为网络舆情中极具影响力的一种。如何从海量数据中快速有效地发现网民关注的热门话题，从而引导政府相关部门及时捕捉微博中敏感的舆论信息，合理地控制负面舆论的扩散。目前，很多政府机关采用全人工或是半自动的监测统计方法，效率低，准确度也低。因此，迫切需要一种更为有效的微博热点话题发现方法。K均值(K-means)聚类算法是一种最为经典、使用最为广泛的划分聚类算法，经常被用于网络舆情的聚类中。但是，其使用有一定的局限性，例如，初始聚类中心的选择方法不一，若选取到孤立点，往往导致最终聚类结果陷入局部最优。
技术实现思路
本专利技术要解决的技术问题是提供一种基于K-均值聚类算法的初始聚类中心确定方法及装置，以解决现有的K-均值聚类算法的初始聚类中心选取到孤立点，易导致聚类结果陷入局部最优的问题。为解决上述技术问题，本专利技术实施例提供一种基于K-均值聚类算法的初始聚类中心确定方法，包括：获取数据对象集合，其中，所述数据对象集合包括：微博文档集合；确定数据对象集合中每个数据对象与其它数据对象间的平均相似度，获取平均相似度大于等于预...

【技术保护点】
1.一种基于K‑均值聚类算法的初始聚类中心确定方法，其特征在于，包括：获取数据对象集合，其中，所述数据对象集合包括：微博文档集合；确定数据对象集合中每个数据对象与其它数据对象间的平均相似度，获取平均相似度大于等于预先设定的密度阈值的数据对象作为核心对象；从核心对象中选取彼此间最不相似的多个核心对象作为K‑均值聚类算法的初始聚类中心，以便K‑均值聚类算法根据得到的初始聚类中心进行聚类。

【技术特征摘要】
1.一种基于K-均值聚类算法的初始聚类中心确定方法，其特征在于，包括：获取数据对象集合，其中，所述数据对象集合包括：微博文档集合；确定数据对象集合中每个数据对象与其它数据对象间的平均相似度，获取平均相似度大于等于预先设定的密度阈值的数据对象作为核心对象；从核心对象中选取彼此间最不相似的多个核心对象作为K-均值聚类算法的初始聚类中心，以便K-均值聚类算法根据得到的初始聚类中心进行聚类。2.根据权利要求1所述的基于K-均值聚类算法的初始聚类中心确定方法，其特征在于，所述确定数据对象集合中每个数据对象与其它数据对象间的平均相似度，获取平均相似度大于等于预先设定的密度阈值的数据对象作为核心对象包括：确定微博文档集合中任意两个文档间的相似度，将相似度保存至相似度矩阵中；根据相似度矩阵，计算每一个文档与其他文档两两之间的平均相似度，获取平均相似度大于等于预先设定的密度阈值的文档，形成核心文档集合。3.根据权利要求2所述的基于K-均值聚类算法的初始聚类中心确定方法，其特征在于，两个文档bi和bj之间的相似度similarity(bi,bj)表示为：其中，bik、bjk分别表示文档bi和bj第k个特征项的权值，n是bi中特征项的总数目，tfk(bi)是指第k个特征项在bi中出现的次数，NBL是微博文档集合中文档的数目，nk表示包含第j个特征项的微博文档的个数。4.根据权利要求3所述的基于K-均值聚类算法的初始聚类中心确定方法，其特征在于，文档b与其他文档两两之间的平均相似度density(b)表示为：density(b)＝∑x∈BLsimilarity(x,b)/NBL其中，BL表示微博文档集合，NBL表示微博文档集合中文档的数目。5.根据权利要求2所述的基于K-均值聚类算法的初始聚类中心确定方法，其特征在于，所述从核心对象中选取彼此间最不相似的多个核心对象作为K-均值聚类算法的初始聚类中心包括：S31，将核心文档集合中的第一个核心文档作为第一个初始聚类中心点centers[1]，并从核心文档集合中删除该核心文档，令计数参数k＝1，同时，将centers[1]置为当前聚类中心点；S32，遍历核心文档集合中剩余的核心文档，选择与当前聚类中心点最不相似的核心文档作为下一个初始聚类中心，添加到初始聚类中心点centers中，并从核心文档集合中删除该核心文档；S33，更新当前聚类中心点，并使k＝k+1，转S32；S34，重复执行S32和S33，直至k与预设的聚类簇数K值相...

【专利技术属性】
技术研发人员：周成成，杨兵强，安凤平，
申请(专利权)人：雷恩友力数据科技南京有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人