The utility model discloses an unsupervised feature selection method and device, the first according to the similarity between features of constructing characteristic topology, then the feature topology segmentation, making feature nodes into higher similarity in the same graph, the characteristics of clustering according to the number of samples, which also features on the sample data selection can not be determined in advance in the sample data classification mark scenarios; through feature clustering graph, further from each connected to select a node in the graph, and the characteristics of the node corresponding to the representative features, credited to the target feature set, so as to get the sample data corresponding to the comprehensive and representative not repeat. Therefore, the classification of the application does not need to rely on the data label, can realize unsupervised feature selection, and ensure the target feature set does not appear two or more than two of similar characteristics, the target feature set can be more intuitive description of the sample data, to avoid redundant information.
【技术实现步骤摘要】
无监督的特征选择方法、装置
本申请涉及计算机数据处理
,尤其涉及无监督的特征选择方法、装置。
技术介绍
目前,基于大数据分析的应用不断涌现,如信息检索、挖掘用户的消费倾向、消费模式等;通过对样本数据进行分析,提取出能够描述样本数据的属性信息,即样本的特征。例如,从某商品的网络销售数据中,可以提取出购买用户等级、购买次数、购金额等特征。一般的,样本数据都具有多个特征,但未必每个特征都对数据的分析有用处,因此需要从大量特征中选出有效的特征,以减少特征集中特征的个数,进而减小具体应用中基于特征集的计算过程的复杂度,提高预测精度。针对样本数据的特征选择问题,相关技术中已经给出多种实现方法,这些实现方法大多都是需要依赖样本数据分类标示的有监督方式,即各条样本数据的类别应当为已知,从而根据这些已知类别调整特征选择模型的参数,以保证特征选择的准确率。但是有些应用场景下样本数据不具备分类标示,从而难以通过现有特征选择方法进行特征选择。另外,应用现有特征选择方法会出现所选出的两个或两个以上特征所代表的信息相似的现象,即最终得到的特征集存在信息冗余。
技术实现思路
为克服相关技术中存在的问题,本申请提供一种无监督的特征选择方法、装置。本申请第一方面,提供一种无监督的特征选择方法,包括:计算样本数据的所有特征之间的相似度;以特征为节点,根据节点之间的相似度构建特征拓扑图;对所述特征拓扑图进行分割,得到一个或多个连通图;根据所述连通图,确定目标特征集。结合第一方面,在第一方面第一种可行的实施方式中,根据节点之间的相似度构建特征拓扑图,包括:在任意相似度大于零的两个节点之间添加一 ...
【技术保护点】
一种无监督的特征选择方法,其特征在于,包括:计算样本数据的所有特征之间的相似度;以特征为节点,根据节点之间的相似度构建特征拓扑图;对所述特征拓扑图进行分割,得到一个或多个连通图;根据所述连通图,确定目标特征集。
【技术特征摘要】
1.一种无监督的特征选择方法,其特征在于,包括:计算样本数据的所有特征之间的相似度;以特征为节点,根据节点之间的相似度构建特征拓扑图;对所述特征拓扑图进行分割,得到一个或多个连通图;根据所述连通图,确定目标特征集。2.根据权利要求1所述的方法,其特征在于,根据节点之间的相似度构建特征拓扑图,包括:在任意相似度大于零的两个节点之间添加一条边,得到所述特征拓扑图。3.根据权利要求1或2所述的方法,其特征在于,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较;删除所述特征拓扑图中相似度小于所述预设相似度阈值的边;将通过边连接的节点划分在同一个连通图中,得到一个或多个连通图。4.根据权利要求1或2所述的方法,其特征在于,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:为所述特征拓扑图中的每个节点设置唯一的标签;将每个节点的标签传播至相应的邻居节点;对于每个节点,将自己的标签和接收到的所有来自邻居的标签进行比较,选其中值最小的标签作为相应节点的新标签;判断各个节点的标签是否发生变化;如果存在至少一个节点的标签发生变化,则返回执行所述将每个节点的标签传播至相应的邻居节点的步骤;如果所有节点的标签均未发生变化,则将标签相同的节点划分在同一个连通图中,得到一个或多个连通图。5.根据权利要求1或2所述的方法,其特征在于,根据所述连通图,确定目标特征集,包括:分别确定每个连通图中的核心节点,并将各个核心节点对应的特征记入目标特征集。6.根据权利要求5所述的方法,其特征在于,分别确定每个连通图中的核心节点,包括:根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。7.一种无监督的特征选择装置,其特征在于,包括:相似度计算单...
【专利技术属性】
技术研发人员:黄光远,兰金鹤,麦港林,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。