一种多维数据集的降维处理方法及装置制造方法及图纸

技术编号:15725196 阅读:70 留言:0更新日期:2017-06-29 13:03
本发明专利技术提供了一种多维数据集的降维处理方法及装置,其中,所述方法包括:预先设置相似性度量标准;对待处理多维数据集及进行主成分分析以确定至少两个特征数据;从所述至少两个特征数据中选择至少两个参考数据;针对于每一个所述特征数据,均执行A1至A2:A1:根据所述相似性度量标准,计算当前所述特征数据与每一个所述参考数据之间分别对应距离值;A2:根据计算的各个所述距离值,确定当前所述特征数据对应的属性值;根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集。通过本发明专利技术的技术方案,可更为有效的降低多维数据集的维度。

【技术实现步骤摘要】
一种多维数据集的降维处理方法及装置
本专利技术涉及计算机
,特别涉及一种多维数据集的降维处理方法及装置。
技术介绍
多维数据集往往包含大量的噪音数据,为了方便对多维数据集进行数据分析,通常需要从多维数据集中提取出部分有效的业务数据来作为特征数据,即去除多维数据集中的噪音数据来实现对多维数据集进行降维。目前,业界主要通过对多维数据集进行主成分分析以实现对多维数据集进行降维处理。通过该方法对多维数据集进行降维处理之后,形成的数据集的维度依然很高。
技术实现思路
本专利技术实施例提供了一种多维数据集的降维处理方法及装置,可更为有效的降低多维数据集的维度。第一方面,本专利技术提供了一种多维数据集的降维处理方法,包括:预先设置相似性度量标准;对待处理多维数据集及进行主成分分析以确定至少两个特征数据;从所述至少两个特征数据中选择至少两个参考数据;针对于每一个所述特征数据,均执行A1至A2:A1:根据所述相似性度量标准,计算当前所述特征数据与每一个所述参考数据之间分别对应距离值;A2:根据计算的各个所述距离值,确定当前所述特征数据对应的属性值;根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集。优选地,所述根据计算的各个所述距离值,确定当前所述特征数据对应的属性值,包括:计算各个所述距离值的平均值,并将所述平均值确定为当前所述特征数据对应的属性值。优选地,所述根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集,包括:按照由小到大的顺序,从计算的各个所述属性值中选择预设数量个第一属性值;从所述至少两个特征数据中,选择各个所述第一属性值分别对应的所述特征数据组成目标数据集。优选地,所述预先设置相似性度量标准,进一步包括:预先设置参考阈值;则,所述根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集,包括:比较所述参考阈值和每一个所述属性值,将小于所述参考阈值的每一个所述属性值均确定为第二属性值;从所述至少两个特征数据中,选择各个所述第二属性值分别对应的所述特征数据组成目标数据集。优选地,在所述根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集之前,还包括:确定参考属性值;则,所述根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集,包括:从所述至少两个特征数据中,选择所述参考属性值对应的各个所述特征数据组成目标数据集。第二方面,本专利技术实施例提供了一种多维数据的降维处理装置,包括:设置模块,用于预先设置相似性度量标准;数据提取模块,用于对待处理多维数据集及进行主成分分析以确定至少两个特征数据;选择模块,用于从所述至少两个特征数据中选择至少两个参考数据;计算模块,用于针对于每一个所述特征数据,根据所述相似性度量标准,计算当前所述特征数据与每一个所述参考数据之间分别对应距离值;第一确定模块,用于根据计算的各个所述距离值,确定当前所述特征数据对应的属性值;降维处理模块,用于根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集。优选地,所述第一确定模块,用于计算各个所述距离值的平均值,并将所述平均值确定为当前所述特征数据对应的属性值。优选地,所述降维处理模块,包括:选择单元和第一处理单元;其中,所述选择单元,用于按照由小到大的顺序,从计算的各个所述属性值中选择预设数量个第一属性值;所述第一处理单元,用于从所述至少两个特征数据中,选择各个所述第一属性值分别对应的所述特征数据组成目标数据集。优选地,所述设置模块,进一步用于预先设置参考阈值;所述降维处理模块,包括:确定单元和第二处理单元;其中,所述确定单元,用于比较所述参考阈值和每一个所述属性值,将小于所述参考阈值的每一个所述属性值均确定为第二属性值;所述第二处理单元,用于从所述至少两个特征数据中,选择各个所述第二属性值分别对应的所述特征数据组成目标数据集。优选地,还包括:第二确定模块;其中,所述第二确定模块,用于确定参考属性值;所述降维处理模块,用于从所述至少两个特征数据中,选择所述参考属性值对应的各个所述特征数据组成目标数据集。本专利技术实施例提供了一种多维数据集的降维处理方法及装置,在该方法中,通过主成分分析以确定至少两个特征数据,即通过主成分分析的方式对待处理多维数据集进行一次降维;然后从一次降维后的多维数据集中选择出至少两个参考数据,通过预先相似性度量标准来计算降维后的多维数据集中的各个特征数据分别与选择出的各个参考数据之间的距离值,进而计算一次降维后的数据集中的各个特征数据分别对应的属性值,进而根据各个特征数据分别对应的属性值的大小,从一次降维后的各个特征数据中选择相应数量的目标特征数据来组成目标数据集,实现对一次降维后的多维数据集进行二次降维。综上可见,本专利技术实施例提供的技术方案,在通过主成分分析的方式对多维数据集进行一次降维之后,还对一次降维后的多维数据集进行二次降维,可更为有效的降低多维数据集的维度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种多维数据集的降维处理方法的流程图;图2是本专利技术一实施例提供的另一种多维数据集的降维处理方法的流程图;图3是本专利技术一实施例提供的一种多维数据集的降维处理装置的结构示意图;图4是本专利技术一实施例提供的另一种多维数据集的降维处理装置的结构示意图;图5是本专利技术一实施例提供的又一种多维数据集的降维处理装置的结构示意图;图6是本专利技术一实施例提供的再一种多维数据集的降维处理装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种多维数据集的降维处理方法,包括:步骤101,预先设置相似性度量标准;步骤102,对待处理多维数据集及进行主成分分析以确定至少两个特征数据;步骤103,从所述至少两个特征数据中选择至少两个参考数据;步骤104,选择未被选择过的一个所述特征数据;步骤105,根据所述相似性度量标准,计算当前选择的所述特征数据与每一个所述参考数据之间分别对应距离值;步骤106,根据计算的各个所述距离值,确定选择的当前所述特征数据对应的属性值;步骤107,判断是否存在未被选择过的特征数据,如果是,则执行步骤104;否则,执行步骤108。步骤108,根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集。本专利技术上述实施例中,通过主成分分析以确定至少两本文档来自技高网...
一种多维数据集的降维处理方法及装置

【技术保护点】
一种多维数据集的降维处理方法,其特征在于,包括:预先设置相似性度量标准,还包括:对待处理多维数据集及进行主成分分析以确定至少两个特征数据;从所述至少两个特征数据中选择至少两个参考数据;针对于每一个所述特征数据,均执行A1至A2:A1:根据所述相似性度量标准,计算当前所述特征数据与每一个所述参考数据之间分别对应距离值;A2:根据计算的各个所述距离值,确定当前所述特征数据对应的属性值;根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集。

【技术特征摘要】
1.一种多维数据集的降维处理方法,其特征在于,包括:预先设置相似性度量标准,还包括:对待处理多维数据集及进行主成分分析以确定至少两个特征数据;从所述至少两个特征数据中选择至少两个参考数据;针对于每一个所述特征数据,均执行A1至A2:A1:根据所述相似性度量标准,计算当前所述特征数据与每一个所述参考数据之间分别对应距离值;A2:根据计算的各个所述距离值,确定当前所述特征数据对应的属性值;根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集。2.根据权利要求1所述的方法,其特征在于,所述根据计算的各个所述距离值,确定当前所述特征数据对应的属性值,包括:计算各个所述距离值的平均值,并将所述平均值确定为当前所述特征数据对应的属性值。3.根据权利要求2所述的方法,其特征在于,所述根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集,包括:按照由小到大的顺序,从计算的各个所述属性值中选择预设数量个第一属性值;从所述至少两个特征数据中,选择各个所述第一属性值分别对应的所述特征数据组成目标数据集。4.根据权利要求2所述的方法,其特征在于,所述预先设置相似性度量标准,进一步包括:预先设置参考阈值;则,所述根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集,包括:比较所述参考阈值和每一个所述属性值,将小于所述参考阈值的每一个所述属性值均确定为第二属性值;从所述至少两个特征数据中,选择各个所述第二属性值分别对应的所述特征数据组成目标数据集。5.根据权利要求1所述的方法,其特征在于,在所述根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集之前,还包括:确定参考属性值;则,所述根据每一个所述特征数据分别对应的属性值,从所述至少两个特征数据中选择至少一个目标特...

【专利技术属性】
技术研发人员:刘丽娜
申请(专利权)人:山东浪潮云服务信息科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1