【技术实现步骤摘要】
一种快速处理缺失异构数据的多核聚类方法
本专利技术属于数据挖掘和机器学习领域,涉及一种多核聚类方法,具体涉及一种用于处理缺失异构数据的多核聚类方法,可应用于Web数据分析、生物信息分析、金融投资分析、智能医疗分析等领域。
技术介绍
随着计算机领域的发展,“互联网+”的理念渗透到各行各业中。在大数据时代下,这些领域的数据具有不同的数据格式且来源多样化,趋向多源异构化。来自于多个数据源且具有不同类型、结构和分布等特性的数据称为“多源异构数据”。例如:设计推荐系统时所分析的数据可能同时包含来自推特、脸书或YouTube等多个社交平台的文本、图像和视频等不同类型的数据。由于多源异构数据的复杂性,其类别标签信息通常是不可用的或获取成本高,为了在多源异构数据中挖掘出更高价值的信息,迫切需要研究能同时从多个数据源中整合异构信息且不需要数据标签信息的聚类方法。聚类是机器学习和数据挖掘领域中的一种基本数据分析方法,其目的在于利用数据中的潜在数据结构,将数据集划分为若干个聚类簇,使得同一簇中的数据点之间的相似性较高,不同簇间数据点的相似性较低。常用于处理传统数据的聚类方法可分为基于原 ...
【技术保护点】
1.一种快速处理缺失异构数据的多核聚类方法,其特征在于包括如下步骤:步骤1,对缺失的多源异构数据进行0填充初始化;步骤2,将初始化后的多源异构数据利用多个基核函数进行多核学习,生成多核矩阵;步骤3,对于生成的多核矩阵,进行多核聚类生成伪标签;然后,使用低秩估计对组成多核矩阵的每个基核矩阵进行缺失值的更新;步骤4,基于聚类的结果,使用超限学习机学习多核联合系数。
【技术特征摘要】
1.一种快速处理缺失异构数据的多核聚类方法,其特征在于包括如下步骤:步骤1,对缺失的多源异构数据进行0填充初始化;步骤2,将初始化后的多源异构数据利用多个基核函数进行多核学习,生成多核矩阵;步骤3,对于生成的多核矩阵,进行多核聚类生成伪标签;然后,使用低秩估计对组成多核矩阵的每个基核矩阵进行缺失值的更新;步骤4,基于聚类的结果,使用超限学习机学习多核联合系数。2.根据...
【专利技术属性】
技术研发人员:向凌云,赵国汗,王进,曾道建,李文军,王磊,
申请(专利权)人:长沙理工大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。