【技术实现步骤摘要】
一种基于分类数据表示后保持特征间相关性的方法
本专利技术涉及分类数据表示与特征排序领域,采用目前word2vector的skip-gram模型对非数值性的分类数据进行表示并保证了表示前后特征的相似性,具体涉及一种一种基于分类数据表示后保持特征间相似性的方法。
技术介绍
具有有限无序特征值的分类数据在现实世界的应用中无处不在,并且在表示和学习方面受到越来越多的关注。与数值数据不同,每个代数运算不能直接操纵分类数据;因此许多流行的数值学习算法不能直接应用。因此,重要的是学习分类数据的数字表示。典型的基于嵌入的表示方法通过编码方案将分类数据转换为数字数据,例如0-1编码和反向文档频率(IDF)编码。这些方法易于实现,但不考虑特征值之间的耦合,因为它们通常独立处理特征。一些最新的基于相似性的表示方法,将特征关系纳入相似性或核矩阵中。但是,它们不捕获值集群或值集群之间的耦合,这导致在使用这种层次值耦合处理数据时,表示能力不足。分类数据的相似性度量的主要困难在于其表示缺乏清晰的空间结构以及表示前后的相似性的一致性。因此,于是我们 ...
【技术保护点】
1.一种基于新的分类数据表示后保持特征间相似性的方法,其特征在于,该方法包括以下步骤:/n步骤1:对原非数值性分类数据进行预处理;/n步骤2:计算特征间相似性的归一化互信息值;/n步骤3:利用归一化互信息公式计算与m特征的归一化互信息值,其中m表示任意的特征;/n步骤4:根据得到的归一化互信息值,按照从大到小的顺序进行排序;/n步骤5:改进word2vector源码,使其适应数值性数据学习表示;/n步骤6:获取排序后特征空间V,其中第i个特征用fi表示,由于f1与f1归一化互信息值为1,计算样本数即为原样本数,特征排序为f1,f2,f3,f4……;其后根据f1与f2归一化互 ...
【技术特征摘要】
1.一种基于新的分类数据表示后保持特征间相似性的方法,其特征在于,该方法包括以下步骤:
步骤1:对原非数值性分类数据进行预处理;
步骤2:计算特征间相似性的归一化互信息值;
步骤3:利用归一化互信息公式计算与m特征的归一化互信息值,其中m表示任意的特征;
步骤4:根据得到的归一化互信息值,按照从大到小的顺序进行排序;
步骤5:改进word2vector源码,使其适应数值性数据学习表示;
步骤6:获取排序后特征空间V,其中第i个特征用fi表示,由于f1与f1归一化互信息值为1,计算样本数即为原样本数,特征排序为f1,f2,f3,f4……;其后根据f1与f2归一化互信息值,计算随机选取样本数,特征排序为f2,f2,f3,f4……;同理根据f1与f3归一化互信息值计算随机选取样本数,特征排序为f3,f2,f3,f4……;
步骤7:对特征已排序后的数据,输入word2vector的skip-gram模型进行学习表示;
步骤8:提取每个特征的word2vector表示,利用余弦相似度量方法计算嵌入后特征表示的相似性;
步骤9:比较表示前与表示后与m特征相似性变化,以及相似性排序。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中,进行分类数据的预处理...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。