A fast text data processing method based on K_Means algorithm and co-occurrence words is presented. Its feature is to calculate the similarity between word vectors based on the principle of co-occurrence words, and divide the data into K+x clusters according to similarity threshold. Combining the idea of density and clustering criterion function, K+x initial clustering centers are selected. Finally, K+x initial clustering centers are located in this K+x cluster. K clustering algorithm is applied to the initial clustering centers. The algorithm is based on the Means clustering algorithm. The improved K_Means clustering algorithm can effectively reduce the number of iterations in the clustering process and the clustering results are more accurate and stable.
【技术实现步骤摘要】
一种基于K-Means算法和共现词的文本数据快速处理方法
本专利技术涉及一种数据处理技术,尤其是一种文本灵气的处理方法,具体地说是一种基于K-Means算法和共现词的文本数据快速处理方法。
技术介绍
聚类(Clustering)是不需要人为监督的学习方式。经过聚类以后得到的数据集对象被称作簇。聚类的目标是要让属于同一个簇内的样本间的差别尽可能小,而不属于同一个簇的样本间的差别尽可能大。聚类不需要人为给予标记,它可以由聚类的算法进行自动运算。因此,在很多应用领域都用到了聚类分析,这些领域包括:统计学、模式识别、信息检索、市场研究调查以及Web文档分类等,随着聚类分析被越来越多的领域所用,它受到越来越多人的重视。国际权威学术会议IEEEInternationalConferenceonDataMining(ICDM)于2006年12月评选出了数据处理领域的十大经典算法,K-means聚类算法是其中之一。Means算法是基于原型的聚类算法,在基于原型的聚类中,簇是点的集合,其中每个点到定义该簇的原型的距离相似度比到其它簇的原型的距离相似度更近大,对于具有连续属性的数据,簇的原型通常是质心,即簇中所有点的平均值。K-Means最初由J.B.MaeQueen于1976年提出的。由于它易于理解、效率较高,在科学研究以及工业界都得到了广泛的应用。K-Means算法的主要步骤为:Input:数据集合D(包含N个数据对象)以及聚类数K。Output:满足聚类准则函数收敛或聚类中心不变的K个簇。1.从数据集合D中随机挑选K个数据对象作为初始聚类中心Cj,j=1,2,3,... ...
【技术保护点】
1.一种基于K‑Means算法和共现词的文本数据快速处理方法,其特征在于:它采用基于共现词的原理计算词向量之间的相似性,并根据相似性阈值将数据划分为K+x个簇,结合密度及聚类准则函数的思想,选取出K+x个初始聚类中心,最后在这K+x个初始聚类中心上进行K‑Means聚类算法,改进后的K‑Means聚类算法能有效减少聚类过程的迭代次数且聚类结果更准确更稳定。
【技术特征摘要】
1.一种基于K-Means算法和共现词的文本数据快速处理方法,其特征在于:它采用基于共现词的原理计算词向量之间的相似性,并根据相似性阈值将数据划分为K+x个簇,结合密度及聚类准则函数的思想,选取出K+x个初始聚类中心,最后在这K+x个初始聚类中心上进行K-Means聚类算法,改进后的K-Means聚类算法能有效减少聚类过程的迭代次数且聚类结果更准确更稳定。2.根据权利要法度1所述的方法,其特征是它包括以下步骤:步骤1:取一部分数据,让它们互相做相似性比较,得出相似度的阈值判定;步骤2:求出每个数据对象与聚类中心的相似度并将数据集合划为K+x类,计算出用户和类簇的相似度并用矩阵表示,矩阵的行代表类簇的个数,矩阵的列代表用户的个数;步骤3:计算相似度矩阵中每个数据对象的平均距离;以便为后续计算数据集合中数据对象的分布密度做铺垫;步骤4:计算相似度矩阵中每个数据对象的分布密度,并将得到的分布密度值按从大到小的顺序排序选出最大分布密度值的簇bi;密度值越大的数据对象说明该数据对象在以dis为半径的空间范围内分布的点越多,说明该数据对象处于高密度区域,以这个数据对象作为初始聚类中心,以利于聚类函数的收敛;步骤5:计算其余数据点的密度值与最大分布密度值簇bi的distanceout(k)(簇间距离)并按从大到小的顺序排序,选取由大到小的K+x-1个密度簇;簇间距离的大小说明了两个簇...
【专利技术属性】
技术研发人员:薛善良,肖雪,蒋丽,李梦颖,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。