无监督的特征选择方法、装置制造方法及图纸

技术编号:16456099 阅读:28 留言:0更新日期:2017-10-25 20:37
本申请公开一种无监督的特征选择方法、装置,其首先根据特征之间的相似度构建特征拓扑图,然后将该特征拓扑图进行分割,使得相似度较高的特征节点划分在同一个连通图中,实现对样本数据的特征聚类,从而在无法预先确定样本数据的分类标示的场景下也可以对样本数据的特征进行选择;在通过连通图完成特征聚类后,进一步可以从每个连通图中选出一个节点,并将该节点对应的特征为代表特征,记入目标特征集,从而得到整个样本数据对应的全面且不重复的代表特征。因此,本申请不需要依赖样本数据的分类标示,可以实现无监督的特征选择,且保证目标特征集中不会出现两个或两个以上相类似的特征,使得目标特征集可以更直观地描述样本数据,避免信息冗余。

Unsupervised feature selection method and device

The utility model discloses an unsupervised feature selection method and device, the first according to the similarity between features of constructing characteristic topology, then the feature topology segmentation, making feature nodes into higher similarity in the same graph, the characteristics of clustering according to the number of samples, which also features on the sample data selection can not be determined in advance in the sample data classification mark scenarios; through feature clustering graph, further from each connected to select a node in the graph, and the characteristics of the node corresponding to the representative features, credited to the target feature set, so as to get the sample data corresponding to the comprehensive and representative not repeat. Therefore, the classification of the application does not need to rely on the data label, can realize unsupervised feature selection, and ensure the target feature set does not appear two or more than two of similar characteristics, the target feature set can be more intuitive description of the sample data, to avoid redundant information.

【技术实现步骤摘要】
无监督的特征选择方法、装置
本申请涉及计算机数据处理
,尤其涉及无监督的特征选择方法、装置。
技术介绍
目前,基于大数据分析的应用不断涌现,如信息检索、挖掘用户的消费倾向、消费模式等;通过对样本数据进行分析,提取出能够描述样本数据的属性信息,即样本的特征。例如,从某商品的网络销售数据中,可以提取出购买用户等级、购买次数、购金额等特征。一般的,样本数据都具有多个特征,但未必每个特征都对数据的分析有用处,因此需要从大量特征中选出有效的特征,以减少特征集中特征的个数,进而减小具体应用中基于特征集的计算过程的复杂度,提高预测精度。针对样本数据的特征选择问题,相关技术中已经给出多种实现方法,这些实现方法大多都是需要依赖样本数据分类标示的有监督方式,即各条样本数据的类别应当为已知,从而根据这些已知类别调整特征选择模型的参数,以保证特征选择的准确率。但是有些应用场景下样本数据不具备分类标示,从而难以通过现有特征选择方法进行特征选择。另外,应用现有特征选择方法会出现所选出的两个或两个以上特征所代表的信息相似的现象,即最终得到的特征集存在信息冗余。
技术实现思路
为克服相关技术中存在的问题,本申请提本文档来自技高网...
无监督的特征选择方法、装置

【技术保护点】
一种无监督的特征选择方法,其特征在于,包括:计算样本数据的所有特征之间的相似度;以特征为节点,根据节点之间的相似度构建特征拓扑图;对所述特征拓扑图进行分割,得到一个或多个连通图;根据所述连通图,确定目标特征集。

【技术特征摘要】
1.一种无监督的特征选择方法,其特征在于,包括:计算样本数据的所有特征之间的相似度;以特征为节点,根据节点之间的相似度构建特征拓扑图;对所述特征拓扑图进行分割,得到一个或多个连通图;根据所述连通图,确定目标特征集。2.根据权利要求1所述的方法,其特征在于,根据节点之间的相似度构建特征拓扑图,包括:在任意相似度大于零的两个节点之间添加一条边,得到所述特征拓扑图。3.根据权利要求1或2所述的方法,其特征在于,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较;删除所述特征拓扑图中相似度小于所述预设相似度阈值的边;将通过边连接的节点划分在同一个连通图中,得到一个或多个连通图。4.根据权利要求1或2所述的方法,其特征在于,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:为所述特征拓扑图中的每个节点设置唯一的标签;将每个节点的标签传播至相应的邻居节点;对于每个节点,将自己的标签和接收到的所有来自邻居的标签进行比较,选其中值最小的标签作为相应节点的新标签;判断各个节点的标签是否发生变化;如果存在至少一个节点的标签发生变化,则返回执行所述将每个节点的标签传播至相应的邻居节点的步骤;如果所有节点的标签均未发生变化,则将标签相同的节点划分在同一个连通图中,得到一个或多个连通图。5.根据权利要求1或2所述的方法,其特征在于,根据所述连通图,确定目标特征集,包括:分别确定每个连通图中的核心节点,并将各个核心节点对应的特征记入目标特征集。6.根据权利要求5所述的方法,其特征在于,分别确定每个连通图中的核心节点,包括:根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。7.一种无监督的特征选择装置,其特征在于,包括:相似度计算单...

【专利技术属性】
技术研发人员:黄光远兰金鹤麦港林
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1