【技术实现步骤摘要】
基于K-Means算法改进的高频职业技能生命曲线聚类方法
本专利技术涉及数据挖掘领域,尤其是涉及一种基于K-Means算法改进的高频职业技能生命曲线聚类方法。
技术介绍
一项职业技能的生命曲线,受到很多因素影响例如职业技能掌握的难易程度、社会对该项职业技能的需求量、该项职业技能对人的身体素质需求以及该项职业技能在社会的认可度等各个方面的影响。所以绘画出职业技能的生命曲线十分困难。但是随着互联网的发展社交网络平台已经成为互联网发展中不可获缺的重要组成部分,职业社交网站上包含了大量用户的职业信息。例如用户掌握的技能、以及其他用户对该用户掌握技能的点赞数、用户的年龄等。职业社交网络的出现为刻画职业技能生命曲线提供了一种新的途径。对高频职业技能生命曲线进行高效且准确的聚类,使得同一个类中的职业技能有着相似的发展轨迹。未来可以根据增长曲线模型等对职业技术的发展趋势做一定的预测,并衡量职业技能的发展潜力,同样可以应用于职业推荐系统中,使得推荐算法能够推荐更具发展潜力的职业给用户。这些都需要依赖对职业技能生命曲线高效且准确的聚类方 ...
【技术保护点】
1.一种基于K-Means算法改进的高频职业技能生命曲线聚类方法,其特征在于,其包括以下步骤:/n1)采用WebMagic爬虫系统爬取用户信息形成用户文档库;/n2)采用MongoDB数据管理工具,挖掘高频职业技能;/n3)采用MongoDB数据管理工具,基于用户之间的点赞关系,使用用户年龄信息进行分段统计,构建高频职业技能生命曲线;/n4)使用密度峰算法选取K个职业技能生命曲线聚类中心;/n5)使用K-Means算法对职业技能生命曲线进行聚类;/n6)采用戴维森堡丁指数度量同一个类簇中数据点的紧密程度以及不同类的聚类中心的离散程度来评估聚类结果,评估不合格,增加职业技能生 ...
【技术特征摘要】
1.一种基于K-Means算法改进的高频职业技能生命曲线聚类方法,其特征在于,其包括以下步骤:
1)采用WebMagic爬虫系统爬取用户信息形成用户文档库;
2)采用MongoDB数据管理工具,挖掘高频职业技能;
3)采用MongoDB数据管理工具,基于用户之间的点赞关系,使用用户年龄信息进行分段统计,构建高频职业技能生命曲线;
4)使用密度峰算法选取K个职业技能生命曲线聚类中心;
5)使用K-Means算法对职业技能生命曲线进行聚类;
6)采用戴维森堡丁指数度量同一个类簇中数据点的紧密程度以及不同类的聚类中心的离散程度来评估聚类结果,评估不合格,增加职业技能生命曲线聚类中心的数量K,返回步骤4,评估合格则进入下一步;
7)基于评估结果,选取戴维森堡丁指数指标趋向稳定的K个初始聚类中心点进行聚类得到最终高频职业技能生命曲线聚类结果。
2.根据权利要求1所述的基于K-Means算法改进的高频职业技能生命曲线聚类方法,其特征在于:在步骤4)和步骤5)的过程中,通过皮尔森相关系数度量的方式,计算其中任意两个职业技能生命曲线的相似度。
3.根据权利要求1所述的一种基于K-Means算法改进的高频职业技能生命曲线聚类方法,其特征在于:所述的步骤1爬取的用户信息包含用户ID、用户年龄、用户掌握的职业技能、用户每个职业技能拥有的点赞数。
4.根据权利要求1所...
【专利技术属性】
技术研发人员:陈冲,司华友,万健,吴浩鹏,张伟,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。