一种多维数据集的降维处理方法及装置制造方法及图纸

技术编号：15725196 阅读：70 留言：0更新日期：2017-06-29 13:03

本发明专利技术提供了一种多维数据集的降维处理方法及装置，其中，所述方法包括：预先设置相似性度量标准；对待处理多维数据集及进行主成分分析以确定至少两个特征数据；从所述至少两个特征数据中选择至少两个参考数据；针对于每一个所述特征数据，均执行A1至A2：A1：根据所述相似性度量标准，计算当前所述特征数据与每一个所述参考数据之间分别对应距离值；A2：根据计算的各个所述距离值，确定当前所述特征数据对应的属性值；根据每一个所述特征数据分别对应的属性值，从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集。通过本发明专利技术的技术方案，可更为有效的降低多维数据集的维度。

全部详细技术资料下载

【技术实现步骤摘要】
一种多维数据集的降维处理方法及装置
本专利技术涉及计算机
，特别涉及一种多维数据集的降维处理方法及装置。
技术介绍
多维数据集往往包含大量的噪音数据，为了方便对多维数据集进行数据分析，通常需要从多维数据集中提取出部分有效的业务数据来作为特征数据，即去除多维数据集中的噪音数据来实现对多维数据集进行降维。目前，业界主要通过对多维数据集进行主成分分析以实现对多维数据集进行降维处理。通过该方法对多维数据集进行降维处理之后，形成的数据集的维度依然很高。
技术实现思路
本专利技术实施例提供了一种多维数据集的降维处理方法及装置，可更为有效的降低多维数据集的维度。第一方面，本专利技术提供了一种多维数据集的降维处理方法，包括：预先设置相似性度量标准；对待处理多维数据集及进行主成分分析以确定至少两个特征数据；从所述至少两个特征数据中选择至少两个参考数据；针对于每一个所述特征数据，均执行A1至A2：A1：根据所述相似性度量标准，计算当前所述特征数据与每一个所述参考数据之间分别对应距离值；A2：根据计算的各个所述距离值，确定当前所述特征数据对应的属性值；根据每一个所述特征数据分别对应的属性值，从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集。优选地，所述根据计算的各个所述距离值，确定当前所述特征数据对应的属性值，包括：计算各个所述距离值的平均值，并将所述平均值确定为当前所述特征数据对应的属性值。优选地，所述根据每一个所述特征数据分别对应的属性值，从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集，包括：按照由小到大的顺序，从计算的各个所述属性值中选择预...
一种多维数据集的降维处理方法及装置

【技术保护点】
一种多维数据集的降维处理方法，其特征在于，包括：预先设置相似性度量标准，还包括：对待处理多维数据集及进行主成分分析以确定至少两个特征数据；从所述至少两个特征数据中选择至少两个参考数据；针对于每一个所述特征数据，均执行A1至A2：A1：根据所述相似性度量标准，计算当前所述特征数据与每一个所述参考数据之间分别对应距离值；A2：根据计算的各个所述距离值，确定当前所述特征数据对应的属性值；根据每一个所述特征数据分别对应的属性值，从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集。

【技术特征摘要】
1.一种多维数据集的降维处理方法，其特征在于，包括：预先设置相似性度量标准，还包括：对待处理多维数据集及进行主成分分析以确定至少两个特征数据；从所述至少两个特征数据中选择至少两个参考数据；针对于每一个所述特征数据，均执行A1至A2：A1：根据所述相似性度量标准，计算当前所述特征数据与每一个所述参考数据之间分别对应距离值；A2：根据计算的各个所述距离值，确定当前所述特征数据对应的属性值；根据每一个所述特征数据分别对应的属性值，从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集。2.根据权利要求1所述的方法，其特征在于，所述根据计算的各个所述距离值，确定当前所述特征数据对应的属性值，包括：计算各个所述距离值的平均值，并将所述平均值确定为当前所述特征数据对应的属性值。3.根据权利要求2所述的方法，其特征在于，所述根据每一个所述特征数据分别对应的属性值，从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集，包括：按照由小到大的顺序，从计算的各个所述属性值中选择预设数量个第一属性值；从所述至少两个特征数据中，选择各个所述第一属性值分别对应的所述特征数据组成目标数据集。4.根据权利要求2所述的方法，其特征在于，所述预先设置相似性度量标准，进一步包括：预先设置参考阈值；则，所述根据每一个所述特征数据分别对应的属性值，从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集，包括：比较所述参考阈值和每一个所述属性值，将小于所述参考阈值的每一个所述属性值均确定为第二属性值；从所述至少两个特征数据中，选择各个所述第二属性值分别对应的所述特征数据组成目标数据集。5.根据权利要求1所述的方法，其特征在于，在所述根据每一个所述特征数据分别对应的属性值，从所述至少两个特征数据中选择至少一个目标特征数据组成目标数据集之前，还包括：确定参考属性值；则，所述根据每一个所述特征数据分别对应的属性值，从所述至少两个特征数据中选择至少一个目标特...

【专利技术属性】
技术研发人员：刘丽娜，
申请(专利权)人：山东浪潮云服务信息科技有限公司，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人