当前位置: 首页 > 专利查询>苏州大学专利>正文

一种基于多阶段分层采样的层次聚类方法和系统技术方案

技术编号:9850131 阅读:116 留言:0更新日期:2014-04-02 16:37
本发明专利技术公开一种基于多阶段分层采样的层次聚类方法和系统,该方法包括:将随机采样得到的初始样本集作为种子构建分层查询策略,并基于分层的估计方差被最小化原则,为每层查询策略分配相应的样本个数;利用分层查询策略对数据源进行分层采样,得到样本代表性较高的代表性样本集;对代表性样本集中的样本进行聚类,基于聚类所得簇的边界点对数据源进行二次采样,得到样本不确定性较高不确定性样本集;基于由初始样本集、代表性样本集及不确定性样本集构成的合集进行聚类,以估计数据源的聚类中心。可见,本发明专利技术通过多阶段分层采样保证了样本具有较高的代表性、不确定性,规避了随机采样样本代表性较差的问题,进而提高了数据源聚类的准确度。

【技术实现步骤摘要】
一种基于多阶段分层采样的层次聚类方法和系统
本专利技术属于De印Web (深度网络)数据处理
,尤其涉及一种基于多阶段分层采样的层次聚类方法和系统。
技术介绍
近年来,作为数据传播的一种方式,Deep Web (数据源)变得越来越流行,相对于Surface Web (表层网络),Deep Web中蕴含了更高质量的数据,从而在Deep Web上进行数据挖掘更具价值。而聚类作为数据挖掘研究领域一个非常活跃的研究课题,可便于了解数据的分布情况,进而可以为后续对De印Web数据的应用提供参考依据,因此对De印Web数据源进行聚类成为该领域的研究热门。Deep Web数据存储在后台数据库,只能通过查询接口提交查询获取相应数据,无法直接获取后台全部数据。基于此种情况,当前,对Deep Web数据源进行聚类一般采用如下方式:首先从Deep Web中进行随机采样,然后在随机采样获得的样本上执行传统的聚类算法,例如K-Means或者层次聚类等,以估算出Deep Web数据源的聚类中心。但该方式由于采用随机采样导致获取的样本代表性较差、信息含量较低、进而导致聚类准确度较低。
技术实现思路
有鉴于此,本 专利技术的目的在于提供一种基于多阶段分层采样的层次聚类方法和系统,以克服现有由于采用随机采样而导致的样本代表性较差、聚类准确度较低的问题。为此,本专利技术公开如下技术方案:一种基于多阶段分层采样的层次聚类方法,包括:基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集;利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于I的自然数;利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集;对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于I的自然数;基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界点采样得到的所有样本构成不确定性样本集;对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。优选的,所述利用所述初始样本集构建基于所述输入属性集的M层查询策略之前还包括:设置迭代参数X,并为X赋值I。优选的,所述对所述k个簇进行边界点采样,得到不确定性样本集之后,还包括:判断X的值是否小于预设的迭代次数β ;当判断结果为小于时,则X值加1,将所述初始样本集、所述代表性样本集以及所述不确定性样本集进行合集,将所述合集替代所述初始样本集作为新的初始样本集,并转至执行步骤:利用所述初始样本集,构建基于所述输入属性集的M层查询策略;当判断结果为不小于时,则转至执行步骤:对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。优选的,所述利用所述初始样本集,构建基于所述输入属性集的M层查询策略具体包括:利用所述初始样本集,构建基于所述输入属性集的策略树,所述策略树中根节点除外的各层与所述输入属性集中的各输入属性 对应,所述策略树中每一节点对应相应输入属性的一个域值,策略树每层中各节点对应的输入属性域值不同;获取所述策略树中每一根节点至叶子节点的路径上包括的各个输入属性及所述输入属性对应的域值,将所述各个输入属性及其对应的域值标记为该叶子节点对应的查询策略。优选的,所述方法,还包括:抑制策略树构建过程中对策略树层次的过度分层。优选的,所述数据源具体为De印Web数据源。一种基于多阶段分层采样的层次聚类系统,包括:随机采样模块,用于基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集;分层查询策略构建模块,用于利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于I的自然数;分层采样模块,用于利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集;初始聚类模块,用于对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于I的自然数;边界采样模块,用于基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界点采样得到的所有样本构成不确定性样本集;聚类模块,用于对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。优选的,所述系统还包括:设置模块,用于设置迭代参数X,并为X赋值1,所述设置模块与所述随机采样模块以及所述分层查询策略构建模块相连;判断模块,用于判断X的值是否小于预设的迭代次数β,若判断结果为是,则X值加1,将所述初始样本集、所述代表性样本集以及所述不确定性样本集进行合集,将所述合集替代所述初始样本集作为新的初始样本集,并转至执行所述分层查询策略构建模块;若判断结果为否,则转至执行所述聚类模块。优选的,所述分层查询策略构建模块具体包括:策略树构建单元,用于利用所述初始样本集,构建基于所述输入属性集的策略树,所述策略树中根节点除外的各层与所述输入属性集中的各输入属性一一对应,所述策略树中每一节点对应相应输入属性的一个域值,策略树每层中各节点对应的输入属性域值不同;查询策略获取单元,用于获取所述策略树中每一根节点至叶子节点的路径上包括的各个输入属性及所述输入属性对应的域值,将所述各个输入属性及其对应的域值标记为该叶子节点对应的查询策略。优选的,所述分层查询策略构建模块还包括:抑制单元,用于抑制策略树构建过程中对策略树层次的过度分层。由于本专利技术采用多阶段分层采样,通过将随机采样所得的初始样本集作为种子,利用该初始样本集构建用于对数据源进行分层采样的分层查询策略,以及基于分层的估计方差被最小化原则,为每层查询策略分配相应的样本个数,保证了对数据源进行分层采样所得样本的代表性;并通过对代表性样本集进行聚类发现聚类所得簇的边界点,基于边界点对数据源进行二次采样,保证了采集样本的不确定性;最终采集的样本包括了初始样本集、代表性样本集以及不确定性样本集。可见,本专利技术采用的多阶段分层采样获得的样本代表性较高、不确定性较高,具有较高的信息含量,规避了现有由于采用随机采样获取样本而导致样本代表性较差的问题,后续基于由初始样本集、代表性样本集以及不确定性样本集构成的合集进行聚类,估计数据源的聚类中心,提高了数据源聚类的准确度。【附图说明】为了更清本文档来自技高网...

【技术保护点】
一种基于多阶段分层采样的层次聚类方法,其特征在于,包括:基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集;利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于1的自然数;利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集;对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于1的自然数;基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界点采样得到的所有样本构成不确定性样本集;对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。

【技术特征摘要】
1.一种基于多阶段分层采样的层次聚类方法,其特征在于,包括: 基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集; 利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于I的自然数; 利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集; 对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于I的自然数; 基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界 点采样得到的所有样本构成不确定性样本集; 对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。2.根据权利要求1所述的方法,其特征在于,所述利用所述初始样本集构建基于所述输入属性集的M层查询策略之前还包括: 设置迭代参数X,并为X赋值I。3.根据权利要求2所述的方法,其特征在于,所述对所述k个簇进行边界点采样,得到不确定性样本集之后,还包括: 判断X的值是否小于预设的迭代次数β ; 当判断结果为小于时,则X值加1,将所述初始样本集、所述代表性样本集以及所述不确定性样本集进行合集,将所述合集替代所述初始样本集作为新的初始样本集,并转至执行步骤:利用所述初始样本集,构建基于所述输入属性集的M层查询策略; 当判断结果为不小于时,则转至执行步骤:对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述利用所述初始样本集,构建基于所述输入属性集的M层查询策略具体包括: 利用所述初始样本集,构建基于所述输入属性集的策略树,所述策略树中根节点除外的各层与所述输入属性集中的各输入属性对应,所述策略树中每一节点对应相应输入属性的一个域值,策略树每层中各节点对应的输入属性域值不同; 获取所述策略树中每一根节点至叶子节点的路径上包括的各个输入属性及所述输入属性对应的域值,将所述各个输入属性及其对应的域值标记为该叶子节点对应的查询策略。5.根据权利要求4任意一项所述的方法,其特征在于,还包括: 抑制策略树构建过程中对策略树...

【专利技术属性】
技术研发人员:赵朋朋刘袁柳吴健鲜学丰崔志明
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1