【技术实现步骤摘要】
面向数据降维的邻域重建方法
本专利技术涉及到数据降维领域,可应用于特征选择和特征提取算法中,为指定的数据中心点生成更近的邻域,具体涉及到面向数据降维的邻域重建方法。
技术介绍
近来由于数据记录和属性规模的急剧增长,诸如语音信号和图片数据之类的数据通常具有很高的维度。然而,实际上样本数目以及特征向量维数的过高对于数据分析和处理而言并非是一件好事。对于已知样本数目,存在着一个最大值,当实际的特征数目超过这个最大值时,在后续的处理过程中得到的实验结果可能无法达到预期的实验结果。这种现象是一种称为“维度灾难”的表现形式。在样本数目一定的情况下,特征数目的过多会导致数据分布的稀疏性,从而导致过拟合。在机器学习的实际应用中,特征数量的维数过高,其中很可能存在着冗余的特征,即对于分类或表征原始数据而言没有意义的特征,这不仅仅会增加计算的复杂度,同时也会导致过拟合。通过降维,可以克服维度灾难,获取数据的本质特征,节省存储空间,去除无用噪声。一般来说,降低维度存在着两种方法:特征选择和特征提取。基于不同的评价指标,特征选择方法大致可以 ...
【技术保护点】
1.面向数据降维的邻域重建方法,其特征在于:所述方法包括如下步骤:/n步骤1,输入测试集中的数据作为数据中心点,输入数据训练集,输入数据中心点对应的初始邻域集合,初始邻域集是数据训练集的子集;/n步骤2:将初始邻域集合和数据中心点放在一个矩阵中,得到基础矩阵,其中数据中心点位于矩阵最后一列;/n步骤3:将步骤2所得基础矩阵右乘系数矩阵产生新的邻域集,迭代一定次数,并将初始邻域集以及每一次邻域集迭代右乘系数矩阵所产生的新的邻域集放到一起产生一个扩充的邻域集,具体的,在将每次产生的邻域集放到同一个扩充邻域集中时,需要先去掉每个邻域集的数据中心点;/n步骤4,计算步骤3所得的扩充 ...
【技术特征摘要】
1.面向数据降维的邻域重建方法,其特征在于:所述方法包括如下步骤:
步骤1,输入测试集中的数据作为数据中心点,输入数据训练集,输入数据中心点对应的初始邻域集合,初始邻域集是数据训练集的子集;
步骤2:将初始邻域集合和数据中心点放在一个矩阵中,得到基础矩阵,其中数据中心点位于矩阵最后一列;
步骤3:将步骤2所得基础矩阵右乘系数矩阵产生新的邻域集,迭代一定次数,并将初始邻域集以及每一次邻域集迭代右乘系数矩阵所产生的新的邻域集放到一起产生一个扩充的邻域集,具体的,在将每次产生的邻域集放到同一个扩充邻域集中时,需要先去掉每个邻域集的数据中心点;
步骤4,计算步骤3所得的扩充领域集中的每一个元素与数据中心点之间的欧式平方距离,在扩充领域集每一行中按元素与中心点欧式距离的关系从小到大进行排序;
步骤5,从扩充邻域集的每一行中选取一个与中心点欧氏平方距离最小的元素,即步骤4排序后的扩充领域集中每一行的第一个元素;将所有的元素放到同一个集合中,即得到一个与中心...
【专利技术属性】
技术研发人员:孙力娟,印桃,郭剑,韩崇,任恒毅,肖甫,王娟,王汝传,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。