一种新颖的多源数据模糊聚类算法制造技术

技术编号:14030386 阅读:54 留言:0更新日期:2016-11-19 19:12
本发明专利技术提供了一种多源数据模糊聚类方法。该方法主要包括:收集多源数据,该多源数据中的每个源中包括多个类,每个类又包括多个维度;构造多源数据的多源数据模糊聚类方法的目标函数,在目标函数中对多源数据中的每个源进行加权,对多源数据中的每个源中的不同类中的不同维度进行加权;对目标函数中的参数进行初始化处理后,对目标函数的聚类中心和参数进行重复更新、聚类处理,完成多源数据的聚类过程。本发明专利技术利用多源数据间的相关性以及不同特征对不同类别识别的贡献度的差异性,构造了一种即考虑不同视角加权又兼顾不同特征的权重不同的一种新的聚类算法,相较于其他的多源数据聚类算法,有更佳的解释性及更可靠的聚类结果。

【技术实现步骤摘要】

本专利技术涉及多源数据分析
,尤其涉及一种多源数据模糊聚类方法。
技术介绍
随着人们收集、存储、传输、管理数据的能力日益提高,各行各业已经从多种渠道/信道收集并积累了大量的数据资源。如《Nature》于2008年9月出版了一期大数据专刊,列举了在生物信息,交通运输,金融,互联网等多领域,多源数据已经在科学研究中扮演者越来越重要的角色。此类大数据的特点之一是混杂性,对此类大数据进行智能数据处理时需要特别关注这一性质。数据的混杂性和数据的采集源十分相关,正是由于实际应用数据来源于多种渠道,使得对复杂对象、复杂应用的描述具有多源性,从而在数据存储和分析角度看来就具有了混杂性。例如,在互联网上,早期信息主要以文字形式存在,目前多媒体信息随处可见。据不完全统计,当前互联网上已有超过50亿幅图像,每年有超过310万小时的视频在互联网上播放。同时,新型感知输入设备(例如多种传感器)以及多媒体输入设备的出现,使得多源信息的大量收集成为可能。为了对这种具有多源特性的数据进行处理,使得计算机能够识别这些信息并加以合理利用,智能化多源信息处理变得尤为重要。从不同信息源收集到的数据,可以看作是对同一事物从不同的角度或者不同途径的描述,也就是说,每个数据样本可能同时包含多个属性集,如果将每个属性集称为一个源或视图(view),则每个源均可以得到与之相应的数据。按照拥有属性集的多少,可以将数据分为单源(single-view)数据和多源(Multi-view)数据。描述同一事物时,若仅采用单一属性(或特征),则是单源,如人脸识别中的人脸图像、文本分类中的文本文档等;若采用多个属性的特征集合,则称为多源数据,又称为多类型(multi-type)、多角度(multi-outlooks)或多表示(nulti-represented)。比如网页可由两个源表示:刻画网页本身所包含信息的特征集构成第一个源,刻画超链接所包含信息的特征集构成第二个源;描述图像信息的文本及图像本身的视觉信息都可以描述图像;从不同角度观测所得的3D形状模型构成了不同的源表示;视频蕴含两种媒介信息:视觉信息和听觉信息;对于同一语义对象,不同的语言描述构成了此语义对象的不同源表示。现有技术中的一种多源数据的示意图如图1所示,因此,多源不仅可以表示数据的不同特征集,也可以用于表示数据的不同来源,还可以表示数据间不同关系。针对多源数据,传统的机器学习算法主要有支持向量机(Support Vector Machines,SVM)、差异化分析(Discriminant Analysis)、核机器(Kernel Machines)、谱聚类(spectral Clustering)等。在上述方法中,通常是将所有的源直接串联成单个源,然后利用单源方法进行处理,但是这种方法在小样本的情况下容易出现过拟合现象,没有充分利用多源数据固有的异构性,同时也会出现数据冗余。相较于单源分析方法,多源数据分析(Multi-View Analysis)方法将每个源的结构特性考虑在内,充分利用源之间的互补信息或关联信息学习模型。这样不仅可以获得隐藏的知识和规律,同时也改善了学习的性能。然而,如果多源数据不能被合理利用,多源学习的性能反而会降低。要想获得较好的多源学习性能,一般需要满足两个重要的原则:一致性原则和互补性原则。目前,多源学习日益受到众多研究者的关注,并已经广泛应用于各个领域,如图像分类、图像检索、情感分析等。已有研究结果表明,与单纯使用单源(或者简单的将多源数据串联成单源数据)相比,多源学习通过不同源数据的信息互补,往往取得更好的效果。因此,多源学习研究受到越来越多的关注,许多有效的学习方法开始涌现出来。根据多源学习任务的不同来划分,多源学习方法主要分为:多源数据分类方法、多源数据聚类方法、多源特征选择/降维三部分,前两者属于分类器层面,后进属于数据预处理与特征表示阶段。为了应对大规模的多源数据,人们希望通过计算机提高数据处理的效率。聚类算法作为一种无监督数据处理方式,受到了越来越多的关注。聚类算法相比较于监督学习方法,不需要已知样本数据的类别,因此有着广泛的应用。聚类算法根据其聚类结果,可以分为硬划分聚类算法以及软化分聚类算法。自Zadeh于1965提出模糊集的概念之后,软划分聚类即成为聚类算法中一个重要的分支。模糊C均值聚类算法(fuzzy C-means clustering algorithm)是经典的基于目标函数最小化的聚类算法。目前,还没有一种有效地将聚类算法应用于多源学习研究的方案。
技术实现思路
本专利技术的实施例提供了一种多源数据模糊聚类方法,以实现有效地对多源数据进行聚类处理。为了实现上述目的,本专利技术采取了如下技术方案。一种多源数据模糊聚类方法,包括:收集多源数据,该多源数据中的每个源中包括多个类,每个类的样本由不同维度的特征表示;构造所述多源数据的多源数据模糊聚类方法的目标函数,在所述目标函数中对所述多源数据中的每个源进行加权,对所述多源数据中的每个源中的不同类中的不同维度进行加权;对所述目标函数中的参数进行初始化处理后,对所述目标函数的聚类中心和参数进行迭代更新、聚类处理,完成所述多源数据的聚类过程。进一步地,所述的构造所述多源数据的多源数据模糊聚类方法的目标函数,在所述目标函数中对所述多源数据中的每个源进行加权,对所述多源数据中的每个源中的不同类中的不同维度进行加权,包括:构造所述多源数据的多源数据模糊聚类方法的目标函数JJ=f(X,U,W,M,V,m,r)+φ(W)式中,X为多源数据构成的矩阵,U为隶属度矩阵,V为聚类中心,W是对每个源的加权矩阵,M为对不同源中不同类的不同维度加权的矩阵,参数m,r分别为隶属度矩阵U以及特征加权矩阵M中的加权指数,φ(W)表示惩罚项。进一步地,通过优化算法得到所述隶属度矩阵U,聚类中心V,源加权矩阵W和所述维度加权矩阵M。进一步地,所述f为凸函数进一步地,所述的对所述目标函数中的参数进行初始化处理后,对所述目标函数的聚类中心和参数进行重复更新、聚类处理,完成所述多源数据的聚类过程,包括:初始化聚类隶属度矩阵U、聚类中心V、源加权矩阵W和特征加权矩阵M,并给定聚类个数,模糊指数m以及权值r参数,更新聚类中心V,更新特征加权矩阵M,更新源加权矩阵W,更新隶属度矩阵U,对多源数据进行聚类处理;重复执行所述更新聚类中心V,更新特征加权矩阵M,更新源加权矩阵W,更新隶属度矩阵U,对多源数据进行聚类处理的过程,直至完成所述多源数据的聚类过程。由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例通过利用多源数据间的相关性以及不同特征对不同类别识别的贡献度的差异性,构造了一种即考虑不同源加权又兼顾不同特征的权重不同的一种新的聚类算法。本算法的显著优势是相较于其他的多源数据聚类算法,不仅学习聚类隶属度矩阵以及类中心,同时对不同的源以及不同的特征均进行加权,对影响数据聚类的各个因素的考虑更加全面,从而更好的学习数据的结构并且加强聚类结果的解释性,因此,可以得到更为贴合实际的聚类结果。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明为了更清楚地说明本专利技术实施例的技术方案本文档来自技高网
...

【技术保护点】
一种多源数据模糊聚类方法,其特征在于,包括:收集多源数据,该多源数据中的每个源中包括多个类,每个类的样本由不同维度的特征表示;构造所述多源数据的多源数据模糊聚类方法的目标函数,在所述目标函数中对所述多源数据中的每个源进行加权,对所述多源数据中的每个源中的不同类中的不同维度进行加权;对所述目标函数中的参数进行初始化处理后,对所述目标函数的聚类中心和参数进行迭代更新、聚类处理,完成所述多源数据的聚类过程。

【技术特征摘要】
1.一种多源数据模糊聚类方法,其特征在于,包括:收集多源数据,该多源数据中的每个源中包括多个类,每个类的样本由不同维度的特征表示;构造所述多源数据的多源数据模糊聚类方法的目标函数,在所述目标函数中对所述多源数据中的每个源进行加权,对所述多源数据中的每个源中的不同类中的不同维度进行加权;对所述目标函数中的参数进行初始化处理后,对所述目标函数的聚类中心和参数进行迭代更新、聚类处理,完成所述多源数据的聚类过程。2.根据权利要求1所述的多源数据模糊聚类方法,其特征在于,所述的构造所述多源数据的多源数据模糊聚类方法的目标函数,在所述目标函数中对所述多源数据中的每个源进行加权,对所述多源数据中的每个源中的不同类中的不同维度进行加权,包括:构造所述多源数据的多源数据模糊聚类方法的目标函数JJ=f(X,U,W,M,V,m,r)+φ(W)式中,X为多源数据构成的矩阵,U为隶属度矩阵,V为聚类中心,W是对每个源的加权矩阵,M为对不同源中不同类的不同维度加权...

【专利技术属性】
技术研发人员:于剑刘烨詹德川
申请(专利权)人:北京交通大学中国科学院心理研究所南京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1