一种数据降维方法、装置及系统制造方法及图纸

技术编号:25951180 阅读:22 留言:0更新日期:2020-10-17 03:43
本发明专利技术公开了一种数据降维方法、装置及系统。其中方法包括:按照数据划分条件将数据集分成若干数据单元,在任意一个或多个数据单元中构建特征集和样本集,数据划分条件与特征集中任意一个或多个特征对应;利用聚类分析法将特征集划分成若干簇,统计簇内包含的特征的数量;若簇内仅包含一个特征,则将该特征以及样本集中与其对应的样本值加入结果集中,若簇内包含两个以上特征,则采用主成分分析法对该簇做降维处理,将降维处理后获得的主成分加入结果集中。本发明专利技术按照划分条件将数据划分成若干数据单元,技术人员可根据具体的应用场景选择一个或多个数据单元进行数据降维,有利于提高降维处理的场景针对性,减轻系统运行压力。

【技术实现步骤摘要】
一种数据降维方法、装置及系统
本专利技术涉及数据挖掘
,特别涉及一种数据降维方法、装置及系统。
技术介绍
在机器学习领域中,数据降维是指采用某种映射方法,将高维空间中的数据点映射到低维度空间中,从而达到减少冗余信息和噪音信息的效果。现有的数据降维方法通常直接针对冗杂海量数据统一作降维处理,使得降维计算量大,处理不灵活,对于特定应用场景的针对性不强,浪费系统运行能力。此外,在现有的线性数据降维方法之一的主成分分析法(PCA)中,在处理多重相关的原始特征时,获得的主成分更多地包含多重相关变量信息,使非相关变量信息被弱化,导致数据变异方向指向多重相关变量,若非相关变量包含重要特征信息,则可能出现数据降维结果不准确的情况。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种数据降维方法、装置及系统。技术方案如下:第一方面,提供了一种数据降维方法,方法包括:按照数据划分条件将数据集分成若干数据单元,在任意一个或多个数据单元中构建特征集和样本集,数据划分条件与特征集中任意一个或多个特征对应;利用聚类分析法将特征集划分成若干簇,统计簇内包含的特征的数量;若簇内仅包含一个特征,则将该特征以及样本集中与其对应的样本值加入结果集中,若簇内包含两个以上特征,则采用主成分分析法对该簇做降维处理,将降维处理后获得的主成分加入结果集中。进一步地,所述数据划分条件至少包括:一级数据划分条件和二级数据划分条件;待降维数据按照一级数据划分条件被分成若干一级数据单元,一级数据单元按照二级数据划分条件被分成若干二级数据单元。进一步地,所述聚类分析法采用K-maxmin聚类分析法。进一步地,划分数据单元之前方法还包括:修正数据集内的缺失值和异常值;和/或识别数据集内的非数值数据,按照预设的非数值数据与数值数据的映射关系,将非数值数据映射为数值数据。进一步地,在构建特征集和样本集后,方法还包括:利用特征选择法对特征集和样本集进行初步降维。进一步地,初步降维包括:对样本集做标准化处理;在标准化处理后的样本集中,利用特征选择法计算特征集中各特征的分类相关性权值;将各特征的分类相关性权值与权值条件对比,将特征集中不满足权值条件的特征和样本集中与其对应的样本数据删除。进一步地,标准化处理为零均值规范化处理。第二方面,提供了一种数据降维装置,装置包括:数据单元划分模块,用于按照数据划分条件将数据集分成若干数据单元,在任意一个或多个数据单元中构建特征集和样本集,数据划分条件与特征集中任意一个或多个特征对应;聚类分析模块,用于利用聚类分析法将特征集划分为若干簇,并统计簇内包含特征的数量;主成分分析模块,用于利用主成分分析法对包含两个以上特征的簇进行降维处理;结果生成模块,用于将包含一个特征的簇内的特征及其对应的样本值,以及用于获取降维处理后获得的主成分加入结果集中。进一步地,所述数据划分条件至少包括:一级数据划分条件和二级数据划分条件;待降维数据按照一级数据划分条件被分成若干一级数据单元,一级数据单元按照二级数据划分条件被分成若干二级数据单元。进一步地,所述聚类分析法采用K-maxmin聚类分析法。进一步地,装置还包括:数据整理模块,用于修正数据集内的缺失值和异常值;和/或识别数据集内的非数值数据,按照预设的非数值数据与数值数据的映射关系,将非数值数据映射为数值数据。进一步地,装置还包括:初步降维模块,用于利用特征选择法预先对特征集和样本集做初步降维处理。进一步地,初步降维模块包括:标准化处理模块,用于对样本集做标准化处理。特征选择模块,用于在标准化处理后的样本集中,利用特征选择法计算特征集中各特征的分类相关性权值,并将各特征的分类相关性权值与权值条件对比,将特征集中不满足权值条件的特征和样本集中与其对应的样本数据删除。进一步地,标准化处理为零均值规范化处理。本专利技术实施例提供的技术方案带来的有益效果是:1、本专利技术技术方案公开的方法按照应用场景设立数据划分条件,并按照划分条件将数据划分成若干数据单元,技术人员可根据具体的应用场景选择一个或多个数据单元进行数据降维,有利于提高降维处理的场景针对性,减轻系统运行压力;2、本专利技术技术方案公开的方法将聚类分析和主成分分析法结合,通过聚类分析对多重相关特征和非相关特征进行划分,识别出多重相关特征,再通过主成分分析法对多重相关特征进行筛选获得最终特征,解决了主成分分析法在不处理多重相关变量存在的局限性问题;3、本专利技术技术方案公开的方法中在聚类分析之前结合特征选择法预先删除了与应用场景分类不相关的特征,有利于提高K-maxmin的分析效率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的数据降维方法流程图;图2是本专利技术实施例提供的数据降维装置结构示意图;图3是本专利技术实施例提供的计算机系统结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在实际应用中数据降维往往面临的是海量的数据信息,统一对其进行降维处理则会增加系统运行压力,降维处理也不够灵活,缺乏对具体场景降维需求的针对性。此外在使用主成分分析法进行数据降维时,对于原始特征多重相关的情况,主成分分析法往往存在数据变异方向偏向多重相关特征而忽略非相关特征的局限性,导致分类性能下降的问题。因此为了解决上述技术问题,如图1所示,本专利技术实施例提供了一种数据降维方法,包括如下步骤:S1、按照数据划分条件将数据集分成若干数据单元,在任意一个或多个数据单元中构建特征集和样本集。其中,特征集为包含若干特征的集合,样本集中包含样本数据。为了减轻数据降维的计算压力,使待降维数据在具体的应用场景中更具有针对性特征,降维计算更加灵活,本实施例在获取待降维数据时根据应用场景的需求设定划分条件,将原始的数据集划分成若干数据单元,进行数据降维时仅可选择地对其中一个或多个数据单元进行降维处理即可。其中,数据集为原始获取的数据。数据划分条件可按照具体需求设定,例如,在金融信贷领域中,数据划分条件可为:“是否有本平台贷款营销成功记录”,“是否有贷款逾期记录”等。需要说明的是,数据划分条件要与特征集中任意一个或多个特征对应,以便能够查找到本文档来自技高网...

【技术保护点】
1.一种数据降维方法,其特征在于,包括:/n按照数据划分条件将数据集分成若干数据单元,在任意一个或多个数据单元中构建特征集和样本集,数据划分条件与特征集中任意一个或多个特征对应;/n利用聚类分析法将特征集划分成若干簇,统计簇内包含的特征的数量;若簇内仅包含一个特征,则将该特征以及样本集中与其对应的样本值加入结果集中,若簇内包含两个以上特征,则采用主成分分析法对该簇做降维处理,将降维处理后获得的主成分加入结果集中。/n

【技术特征摘要】
1.一种数据降维方法,其特征在于,包括:
按照数据划分条件将数据集分成若干数据单元,在任意一个或多个数据单元中构建特征集和样本集,数据划分条件与特征集中任意一个或多个特征对应;
利用聚类分析法将特征集划分成若干簇,统计簇内包含的特征的数量;若簇内仅包含一个特征,则将该特征以及样本集中与其对应的样本值加入结果集中,若簇内包含两个以上特征,则采用主成分分析法对该簇做降维处理,将降维处理后获得的主成分加入结果集中。


2.如权利要求1的方法,其特征在于,所述数据划分条件至少包括:一级数据划分条件和二级数据划分条件;待降维数据按照一级数据划分条件被分成若干一级数据单元,一级数据单元按照二级数据划分条件被分成若干二级数据单元。


3.如权利要求1或2的方法,其特征在于,所述聚类分析法采用K-maxmin聚类分析法。


4.如权利要求1或2的方法,其特征在于,划分数据单元之前方法还包括:
修正数据集内的缺失值和异常值;和/或
识别数据集内的非数值数据,按照预设的非数值数据与数值数据的映射关系,将非数值数据映射为数值数据。


5.如权利要求1或2的方法,其特征在于,在构建特征集和样本集后,方法还包括:
利用特征选择法对特征集和样本集进行初步降维。


6.如权利要求5的方法,其特征在于,初步降维包括:
对样本集做标准化处理;<...

【专利技术属性】
技术研发人员:李怡文黄馨
申请(专利权)人:苏宁金融科技南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1