【技术实现步骤摘要】
一种基于多阶段分层采样的层次聚类方法和系统
本专利技术属于De印Web (深度网络)数据处理
,尤其涉及一种基于多阶段分层采样的层次聚类方法和系统。
技术介绍
近年来,作为数据传播的一种方式,Deep Web (数据源)变得越来越流行,相对于Surface Web (表层网络),Deep Web中蕴含了更高质量的数据,从而在Deep Web上进行数据挖掘更具价值。而聚类作为数据挖掘研究领域一个非常活跃的研究课题,可便于了解数据的分布情况,进而可以为后续对De印Web数据的应用提供参考依据,因此对De印Web数据源进行聚类成为该领域的研究热门。Deep Web数据存储在后台数据库,只能通过查询接口提交查询获取相应数据,无法直接获取后台全部数据。基于此种情况,当前,对Deep Web数据源进行聚类一般采用如下方式:首先从Deep Web中进行随机采样,然后在随机采样获得的样本上执行传统的聚类算法,例如K-Means或者层次聚类等,以估算出Deep Web数据源的聚类中心。但该方式由于采用随机采样导致获取的样本代表性较差、信息含量较低、进而导致聚类准确度较低。
技术实现思路
有鉴于此,本 专利技术的目的在于提供一种基于多阶段分层采样的层次聚类方法和系统,以克服现有由于采用随机采样而导致的样本代表性较差、聚类准确度较低的问题。为此,本专利技术公开如下技术方案:一种基于多阶段分层采样的层次聚类方法,包括:基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集;利用所述初始样本集,构建基于所述输入属性 ...
【技术保护点】
一种基于多阶段分层采样的层次聚类方法,其特征在于,包括:基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集;利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于1的自然数;利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集;对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于1的自然数;基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界点采样得到的所有样本构成不确定性样本集;对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。
【技术特征摘要】
1.一种基于多阶段分层采样的层次聚类方法,其特征在于,包括: 基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集; 利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于I的自然数; 利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集; 对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于I的自然数; 基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界 点采样得到的所有样本构成不确定性样本集; 对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。2.根据权利要求1所述的方法,其特征在于,所述利用所述初始样本集构建基于所述输入属性集的M层查询策略之前还包括: 设置迭代参数X,并为X赋值I。3.根据权利要求2所述的方法,其特征在于,所述对所述k个簇进行边界点采样,得到不确定性样本集之后,还包括: 判断X的值是否小于预设的迭代次数β ; 当判断结果为小于时,则X值加1,将所述初始样本集、所述代表性样本集以及所述不确定性样本集进行合集,将所述合集替代所述初始样本集作为新的初始样本集,并转至执行步骤:利用所述初始样本集,构建基于所述输入属性集的M层查询策略; 当判断结果为不小于时,则转至执行步骤:对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述利用所述初始样本集,构建基于所述输入属性集的M层查询策略具体包括: 利用所述初始样本集,构建基于所述输入属性集的策略树,所述策略树中根节点除外的各层与所述输入属性集中的各输入属性对应,所述策略树中每一节点对应相应输入属性的一个域值,策略树每层中各节点对应的输入属性域值不同; 获取所述策略树中每一根节点至叶子节点的路径上包括的各个输入属性及所述输入属性对应的域值,将所述各个输入属性及其对应的域值标记为该叶子节点对应的查询策略。5.根据权利要求4任意一项所述的方法,其特征在于,还包括: 抑制策略树构建过程中对策略树...
【专利技术属性】
技术研发人员:赵朋朋,刘袁柳,吴健,鲜学丰,崔志明,
申请(专利权)人:苏州大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。