【技术实现步骤摘要】
一种基于改进K-means算法的网页聚类处理方法
本专利技术属于数据挖掘领域,具体的说是一种基于K-means算法改进的应用于网页聚类的处理方法。
技术介绍
聚类分析技术是当前数据挖掘技术领城中重要的基础性研究课题之一,我们所谓的聚类,是指根据输入记录自身的属性和相互间的属性关系,把具有高相似度的数据对象放在一个簇里,同时尽量把其他具有高相异度的数据对象放在不同的簇中的一种聚类分析技术。K-means算法是最具有代表性的一种机器学习算法,大量实践研究已明确证实,此算法集多重优势为一身,表现为操作简单、结果可靠等。就现阶段来看,这种算法已衍生多个分类,比如密度的、模型的等,尽管该算法凭借自身强大优势在诸多领域实现了规模化普及与积极使用,但它的最优解却受多重因素影响。随着互联网的信息来源越来越广泛,互联网网页数量呈爆炸式增长。作为信息的载体,互联网上每时每刻都在产生大量主题各异的Web网页文本,数据量巨大,且内容越来越丰富。Web网页聚类技术能够实现对互联网中海量数据的快速检索、过滤、聚类和归档,提高人们对网络的利用率,降低搜索 ...
【技术保护点】
1.一种基于改进K-means算法的网页聚类处理方法,其特征在于,包括以下步骤:/n步骤一:采集网页文本数据集;/n步骤二:对采集的网页文本数据进行数据集预处理;/n步骤三:建立模型,通过使用基于初始聚类中心选择算法的聚类算法对数据集进行初始聚类中心选择;/n步骤四:通过使用改进的聚类算法对已经选择好初始聚类中心点的数据集进行聚类,划分数据集。/n
【技术特征摘要】
1.一种基于改进K-means算法的网页聚类处理方法,其特征在于,包括以下步骤:
步骤一:采集网页文本数据集;
步骤二:对采集的网页文本数据进行数据集预处理;
步骤三:建立模型,通过使用基于初始聚类中心选择算法的聚类算法对数据集进行初始聚类中心选择;
步骤四:通过使用改进的聚类算法对已经选择好初始聚类中心点的数据集进行聚类,划分数据集。
2.根据权利要求1所述的一种基于改进K-means算法的网页聚类处理方法,其特征在于,所述步骤一中采集网站文本数据集,通过使用基于Python语言开发的网络爬虫工具对需要获取的文本信息进行抓取。
3.根据权利要求1所述的一种基于改进K-means算法的网页聚类处理方法,其特征在于,所述步骤二中对采集的数据进行数据集预处理,使用中文文本分词工具对获取的文本信息进行分词处理,剔除无价值的信息,只保留需要挖掘的数据信息。
4.根据权利要求1所述的一种基于改进K-means算法的网页聚类处理方法,其特征在于,所述步骤三中建立模型,通过使用基于初始聚类中心选择算法的聚类算法对数据集进行初始聚类中心选择,具体步骤如下:
(1)输入信息文档集合blogList={b1,b2,…,bn};指定聚类的簇数为K;密度阈值refSimilarity;
(2)对于给定的信息文档集合blogList,求出任意两个文档间的相似度K,保存至相似度矩阵中docSimilarity;
(3)根据相似度矩阵docSimilarity,计算每一个文档与其它文档两两之间的平均相似...
【专利技术属性】
技术研发人员:李校林,谭航,
申请(专利权)人:重庆邮电大学,重庆信科设计有限公司,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。