无监督的特征选择方法、装置制造方法及图纸

技术编号:16456099 阅读:17 留言:0更新日期:2017-10-25 20:37
本申请公开一种无监督的特征选择方法、装置,其首先根据特征之间的相似度构建特征拓扑图,然后将该特征拓扑图进行分割,使得相似度较高的特征节点划分在同一个连通图中,实现对样本数据的特征聚类,从而在无法预先确定样本数据的分类标示的场景下也可以对样本数据的特征进行选择;在通过连通图完成特征聚类后,进一步可以从每个连通图中选出一个节点,并将该节点对应的特征为代表特征,记入目标特征集,从而得到整个样本数据对应的全面且不重复的代表特征。因此,本申请不需要依赖样本数据的分类标示,可以实现无监督的特征选择,且保证目标特征集中不会出现两个或两个以上相类似的特征,使得目标特征集可以更直观地描述样本数据,避免信息冗余。

Unsupervised feature selection method and device

The utility model discloses an unsupervised feature selection method and device, the first according to the similarity between features of constructing characteristic topology, then the feature topology segmentation, making feature nodes into higher similarity in the same graph, the characteristics of clustering according to the number of samples, which also features on the sample data selection can not be determined in advance in the sample data classification mark scenarios; through feature clustering graph, further from each connected to select a node in the graph, and the characteristics of the node corresponding to the representative features, credited to the target feature set, so as to get the sample data corresponding to the comprehensive and representative not repeat. Therefore, the classification of the application does not need to rely on the data label, can realize unsupervised feature selection, and ensure the target feature set does not appear two or more than two of similar characteristics, the target feature set can be more intuitive description of the sample data, to avoid redundant information.

【技术实现步骤摘要】
无监督的特征选择方法、装置
本申请涉及计算机数据处理
,尤其涉及无监督的特征选择方法、装置。
技术介绍
目前,基于大数据分析的应用不断涌现,如信息检索、挖掘用户的消费倾向、消费模式等;通过对样本数据进行分析,提取出能够描述样本数据的属性信息,即样本的特征。例如,从某商品的网络销售数据中,可以提取出购买用户等级、购买次数、购金额等特征。一般的,样本数据都具有多个特征,但未必每个特征都对数据的分析有用处,因此需要从大量特征中选出有效的特征,以减少特征集中特征的个数,进而减小具体应用中基于特征集的计算过程的复杂度,提高预测精度。针对样本数据的特征选择问题,相关技术中已经给出多种实现方法,这些实现方法大多都是需要依赖样本数据分类标示的有监督方式,即各条样本数据的类别应当为已知,从而根据这些已知类别调整特征选择模型的参数,以保证特征选择的准确率。但是有些应用场景下样本数据不具备分类标示,从而难以通过现有特征选择方法进行特征选择。另外,应用现有特征选择方法会出现所选出的两个或两个以上特征所代表的信息相似的现象,即最终得到的特征集存在信息冗余。
技术实现思路
为克服相关技术中存在的问题,本申请提供一种无监督的特征选择方法、装置。本申请第一方面,提供一种无监督的特征选择方法,包括:计算样本数据的所有特征之间的相似度;以特征为节点,根据节点之间的相似度构建特征拓扑图;对所述特征拓扑图进行分割,得到一个或多个连通图;根据所述连通图,确定目标特征集。结合第一方面,在第一方面第一种可行的实施方式中,根据节点之间的相似度构建特征拓扑图,包括:在任意相似度大于零的两个节点之间添加一条边,得到所述特征拓扑图。结合第一方面,或者第一方面第一种可行的实施方式,在第一方面第二种可行的实施方式中,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较;删除所述特征拓扑图中相似度小于所述预设相似度阈值的边;将通过边连接的节点划分在同一个连通图中,得到一个或多个连通图。结合第一方面,或者第一方面第一种可行的实施方式,在第一方面第三种可行的实施方式中,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:为所述特征拓扑图中的每个节点设置唯一的标签;将每个节点的标签传播至相应的邻居节点;对于每个节点,将自己的标签和接收到的所有来自邻居的标签进行比较,选其中值最小的标签作为相应节点的新标签;判断各个节点的标签是否发生变化;如果存在至少一个节点的标签发生变化,则返回执行所述将每个节点的标签传播至相应的邻居节点的步骤;如果所有节点的标签均未发生变化,则将标签相同的节点划分在同一个连通图中,得到一个或多个连通图。结合第一方面,或者第一方面第一种可行的实施方式,在第一方面第四种可行的实施方式中,根据所述连通图,确定目标特征集,包括:分别确定每个连通图中的核心节点,并将各个核心节点对应的特征记入目标特征集。结合第一方面第四种可行的实施方式,在第一方面第五种可行的实施方式中,分别确定每个连通图中的核心节点,包括:根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。本申请第二方面,提供一种无监督的特征选择装置,包括:相似度计算单元,用于计算样本数据的所有特征之间的相似度;拓扑图构建单元,用于以特征为节点,根据节点之间的相似度构建特征拓扑图;连通图挖掘单元,用于对所述特征拓扑图进行分割,得到一个或多个连通图;目标特征选择单元,用于根据所述连通图,确定目标特征集。结合第二方面,在第二方面第一种可行的实施方式中,所述拓扑图构建单元具体被配置为:在任意相似度大于零的两个节点之间添加一条边,得到所述特征拓扑图。结合第二方面,或者第二方面第一种可行的实施方式,在第二方面第二种可行的实施方式中,所述连通图挖掘单元包括:第一挖掘模块;所述第一挖掘模块被配置为:分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较;删除所述特征拓扑图中相似度小于所述预设相似度阈值的边;将通过边连接的节点划分在同一个连通图中,得到一个或多个连通图。结合第二方面,或者第二方面第一种可行的实施方式,在第二方面第三种可行的实施方式中,所述连通图挖掘单元包括:第二挖掘模块;所述第二挖掘模块被配置为:为所述特征拓扑图中的每个节点设置唯一的标签;将每个节点的标签传播至相应的邻居节点;对于每个节点,将自己的标签和接收到的所有来自邻居的标签进行比较,选其中值最小的标签作为相应节点的新标签;判断各个节点的标签是否发生变化;如果存在至少一个节点的标签发生变化,则返回执行所述将每个节点的标签传播至相应的邻居节点的步骤;如果所有节点的标签均未发生变化,则将标签相同的节点划分在同一个连通图中,得到一个或多个连通图。结合第二方面,或者第二方面第一种可行的实施方式,在第二方面第四种可行的实施方式中,所述目标特征选择单元具体被配置为:分别确定每个连通图中的核心节点,并将各个核心节点对应的特征记入目标特征集。结合第二方面第四种可行的实施方式,在第二方面第五种可行的实施方式中,所述目标特征选择单元具体被配置为:根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。由以上技术方案可知,本申请实施例基于图论知识完成对样本数据的分析,首先根据特征之间的相似度构建特征拓扑图,然后将该特征拓扑图进行分割,使得相似度较高的特征节点划分在同一个连通图中,实现对样本数据的特征聚类,从而在无法预先确定样本数据的分类标示的场景下也可以对样本数据的特征进行选择;在通过连通图完成特征聚类后,进一步从每个连通图中选出一个节点,并将该节点对应的特征为代表特征,记入目标特征集,从而得到整个样本数据对应的全面且不重复的代表特征。因此,本实施例不需要依赖样本数据的分类标示,可以实现无监督的特征选择,且保证目标特征集中不会出现两个或两个以上相类似的特征,使得目标特征集可以更直观地描述样本数据,避免信息冗余。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是本申请实施例提供的一种无监督的特征选择方法的流程图。图2是本申请实施例提供的无监督的特征选择方法中挖掘连通图的原理示意图。图3是本申请实施例提供的无监督的特征选择方法中分割特征拓扑图的一种方法示意图。图4是本申请实施例提供的一种无监督的特征选择装置的结构框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。图1示出的一种无监督的特征选择方法的流程图。如图1所示,该方法包括以下步骤。S11、计算样本数据的所有特征之间的相似度。具体的,本申请实施例可以根据欧氏距离、余弦距离和杰卡德相似系数中的任意一种计算两个特征之间的相似度。其中,欧氏距离表征空本文档来自技高网...
无监督的特征选择方法、装置

【技术保护点】
一种无监督的特征选择方法,其特征在于,包括:计算样本数据的所有特征之间的相似度;以特征为节点,根据节点之间的相似度构建特征拓扑图;对所述特征拓扑图进行分割,得到一个或多个连通图;根据所述连通图,确定目标特征集。

【技术特征摘要】
1.一种无监督的特征选择方法,其特征在于,包括:计算样本数据的所有特征之间的相似度;以特征为节点,根据节点之间的相似度构建特征拓扑图;对所述特征拓扑图进行分割,得到一个或多个连通图;根据所述连通图,确定目标特征集。2.根据权利要求1所述的方法,其特征在于,根据节点之间的相似度构建特征拓扑图,包括:在任意相似度大于零的两个节点之间添加一条边,得到所述特征拓扑图。3.根据权利要求1或2所述的方法,其特征在于,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较;删除所述特征拓扑图中相似度小于所述预设相似度阈值的边;将通过边连接的节点划分在同一个连通图中,得到一个或多个连通图。4.根据权利要求1或2所述的方法,其特征在于,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:为所述特征拓扑图中的每个节点设置唯一的标签;将每个节点的标签传播至相应的邻居节点;对于每个节点,将自己的标签和接收到的所有来自邻居的标签进行比较,选其中值最小的标签作为相应节点的新标签;判断各个节点的标签是否发生变化;如果存在至少一个节点的标签发生变化,则返回执行所述将每个节点的标签传播至相应的邻居节点的步骤;如果所有节点的标签均未发生变化,则将标签相同的节点划分在同一个连通图中,得到一个或多个连通图。5.根据权利要求1或2所述的方法,其特征在于,根据所述连通图,确定目标特征集,包括:分别确定每个连通图中的核心节点,并将各个核心节点对应的特征记入目标特征集。6.根据权利要求5所述的方法,其特征在于,分别确定每个连通图中的核心节点,包括:根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。7.一种无监督的特征选择装置,其特征在于,包括:相似度计算单...

【专利技术属性】
技术研发人员:黄光远兰金鹤麦港林
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1