一种并行AP传播的XML大数据聚类集成方法技术

技术编号:10256809 阅读:206 留言:0更新日期:2014-07-25 11:54
本发明专利技术公开了一种并行AP传播的XML大数据聚类集成方法,包括,对每一个XML大数据进行清洗、划分和抽取等预处理;把抽取的子树中所有关键词看成该数据点特征描述;借鉴聚类集成的基本思想;内联相似度大矩阵分解思想;实现最终的聚类集成。本发明专利技术通过建立随机子空间分类器并并行随机抽取子树来扩大聚类成员的差异性、提高聚类的性能;引入消歧处理,消除了每个子树中因语义相关环境与内容不一致所引起的歧义难题,同时综合语义相似度与路径相似度,解决了XML文档相似度计算不准确对初始聚类结果的影响;利用系统能量理论,改进了AP算法的归属度矩阵和吸收矩阵的迭代式,实现了XML大数据的聚类集成,提高了聚类集成方法效率。

【技术实现步骤摘要】
一种并行AP传播的XML大数据聚类集成方法
本专利技术属于大数据集成方法应用领域,尤其涉及一种并行AP传播的XML大数据聚类集成方法。
技术介绍
目前,XML大数据也与其它类型的大数据一样,具有体积浩大、结构复杂、生成速度快、价值巨大但密度低的特点,且数据量从MB到GB、TB、PB直至ZB,此外,它的数据呈现非凸特性且分布很不均匀,数据噪声和孤立点多,而且许多数据以数据流的形式出现在Web中,因此,对这些速度变化快且具有很强的时效性的XML大数据,若采用传统的算法进行聚类集成,则这些集成方法在解决XML大数据集存在明显不足,其主要表现在:(1)占用的存储空间大,预测速度慢,预测效果差;(2)在线机器学习困难,对小规模数据有效,对大规模数据效果差;(3)动态性、实时性差,不能处理流数据;(4)算法由于缺乏先验知识,对XML数据分布的全局特点把握不准,最后导致聚类精度及聚类结果得不到满意的要求。因此,专利技术一种并行AP传播的XML大数据聚类集成方法显得非常必要。
技术实现思路
本专利技术的目的是基于PC机分布式环境下提供一种并行AP传播的XML大数据聚类集成方法,旨在传统的算法存在着占用的存储空间大,预测速度慢,预测效果差,在线机器学习困难,对小规模数据有效,对大规模数据效果差处理效率低,对XML数据分布的全局特点把握不准的问题。本专利技术是这样实现的,一种并行AP传播的XML大数据聚类集成方法的必要技术方案:本专利技术是这样实现的,一种并行AP传播的XML大数据聚类集成方法包括,步骤一:对每一个XML大数据进行清洗、划分和抽取等预处理;步骤二:把抽取的子树中所有关键词看成该数据点特征描述;步骤三:借鉴聚类集成的基本思想;步骤四:内联相似度大矩阵分解思想;步骤五:实现最终的聚类集成。一种并行AP传播的XML大数据聚类集成方法的次要技术方案:进一步,在步骤一,先对XML文档集中的每一个XML大数据进行清洗、划分和抽取等预处理,求出抽取的每个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求取每个关键词的语义相关度及上下文语义相关相似度;进一步,在步骤二,把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量;进一步,在步骤三,借鉴聚类集成的基本思想,用随机子空间分类器作为基聚类器构建K个分类器,K个分类器并行地从n个n×n特征向量空间中随机抽取m样本数据进行训练以求得其分类,其方法是对新样本集建立一个无向图,每个样本点是图的一个顶点,图的边是顶点间的连线,它表示文档之间的相似度,其相似度采用标记语义树的方法求得,并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径,路径的划分采用K-邻近法,这样把划分的每一条路径组成一个类别,所有不同的划分路径组成K个初始分类。进一步,在步骤四,从初始的簇集结果出发,按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵,通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入;进一步,在步骤五,通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。本专利技术提供的并行AP传播的XML大数据聚类集成方法为了扩大聚类成员的差异性、提高聚类的性能,选用并行随机子空间的基聚类器来进行初始训练,这样不会因XML文档数量成倍增加而影响聚类的质量和额外增加聚类的时间,解决了高维、大数据集非凸的聚类问题;引入消歧处理,消除了XML文档中因语义相关环境与内容不一致所引起的歧义难题,同时综合语义相似度与路径相似度,解决了XML文档相似度计算不准确对初始聚类结果的影响;从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后,采用精化LANCZOS双对角化策略把矩阵投影于低维空间,并通过设计的并行LANCZOS-QR算法来求解矩阵的特征值和对应的特征向量,避免因数据规模大,数据的计算量成倍增加而增加算法的时间复杂度;利用系统能量理论,把待集成的基本聚类划分结果看成一个系统,系统的能量就是不同聚类结果之间的能量组合,通过设计出系统能量的AP传播算法并行实现能量的最优组合,提高了聚类集成方法的效率,弥补以往聚类集成方法的不足。附图说明图1是本专利技术提供的并行AP传播的XML大数据聚类集成方法方法流程图。具体实施方式一种并行AP传播的XML大数据聚类集成方法的必要技术方案:本专利技术是这样实现的,一种并行AP传播的XML大数据聚类集成方法包括,S101:对每一个XML大数据进行清洗、划分和抽取等预处理;S102:把抽取的子树中所有关键词看成该数据点特征描述;S103:借鉴聚类集成的基本思想;S104:内联相似度大矩阵的分解思想;S105:实现最终的聚类集成。一种并行AP传播的XML大数据聚类集成方法的次要技术方案:进一步,在S101,先对XML文档集中的每一个XML大数据进行清洗、划分和抽取等预处理,求出抽取的每个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求取每个关键词的语义相关度及上下文语义相关相似度;进一步,在S102,把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量;进一步,在S103,借鉴聚类集成的基本思想,用随机子空间分类器作为基聚类器并行地从其特征向量空间中随机抽取多个样本并重复多次来构建多个分类器,同时对每个子分类器中的样本数据进行训练以求得其分类,其方法是对新样本集建立一个无向图,每个样本点是图的一个顶点,图的边是顶点间的连线,它表示文档之间的相似度,其相似度采用标记语义树的方法求得,并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径,路径的划分采用K-邻近法,这样把划分的每一条路径组成一个类别,所有不同的划分路径组成K个初始分类;进一步,S104,从初始的簇集结果出发,按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵,通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入;进一步,在S105,通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。本专利技术的具体实施例:实施例1:步骤一:对每一个XML大数据进行清洗、划分和抽取等预处理,即对每一个XML大数据清洗后,通过规模与内容相结合的划分方法,从大数据中提取所有节点及其节点的子集,计算节点的子集在其数据中的频度,根据节点的频繁频度尽可能地把属于同一主题内容的节点及其子孙划分在同一个子集、不同主题内容的节点划分到不同的子集中,并从划分的子集中按照关键词的频繁频度抽取n个子树,求出抽取的每个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求出每个关键词的语义相关度及上下文语义相关相似度;其相似度求取如下:假设从XML大数据中抽取n个子树集D’=(d’1,d’2,…,d’n),为了求取d’i、d’j两个子树的相似度,首先求出每个子树中关键词的相似度(也就是每个元素的相似度),即先对文档进行预处理,求出每个文档从根节点到叶子节点所有元素的不同路径,并以路本文档来自技高网...
一种并行AP传播的XML大数据聚类集成方法

【技术保护点】
一种并行AP传播的XML大数据聚类集成方法,其特征在于:该并行AP传播的XML大数据聚类集成方法包括以下步骤:步骤一:对每一个XML大数据进行清洗、划分和抽取预处理;步骤二:把抽取的子树中所有关键词看成该数据点特征描述;步骤三:借鉴聚类集成的基本思想;步骤四:内联相似度大矩阵分解思想;步骤五:实现最终的聚类集成。

【技术特征摘要】
1.一种并行AP传播的XML大数据聚类集成方法,其特征在于:该并行AP传播的XML大数据聚类集成方法包括以下步骤:步骤一:对每一个XML大数据进行清洗、划分和抽取预处理;步骤二:把抽取的子树中所有关键词看成该XML大数据的特征描述;步骤三:借鉴聚类集成的基本思想,用随机子空间分类器作为基聚类器构建K个分类器,K个分类器并行地从n个n×n特征向量空间中随机抽取m个样本数据来进行训练以求得分类,方法是对新样本集建立一个无向图,每个样本点是图的一个顶点,图的边是顶点间的连线,它表示文档之间的相似度,相似度采用标记语义树的方法求得,并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径,路径的划分采用K-邻近法,这样把划分的每一条路径组成一个类别,所有不同的划分路径组成K个初始分类;步骤四:从初始的簇集结果出发,按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵,通过设计的并行的LANCZOS—QR算法求解其特征值对应的特...

【专利技术属性】
技术研发人员:蒋勇
申请(专利权)人:湖南化工职业技术学院
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1