基于1/2相似度偏离的数据预处理方法技术

技术编号：21400195 阅读：29 留言：0更新日期：2019-06-19 07:19

本发明专利技术公开一种基于1/2相似度偏离的数据预处理方法，这种预处理是一种线性变换，主要任务是学习一个变换矩阵W，然后将原始数据集S变换成为新的数据集

全部详细技术资料下载

【技术实现步骤摘要】
基于1/2相似度偏离的数据预处理方法
本专利技术涉及数据挖掘
，且更具体地涉及一种基于1/2相似度偏离的数据预处理方法。
技术介绍
众多领域的一些学习问题都能归结于一个数学模型的预测问题。为了能够得到更高的预测精度和更快的预测速度，各类预测算法层出不穷。然而除了对算法性能的不断追求外，从数据本身入手进行预处理操作对提高算法的预测效果也具有重要意义。但如今大多数数据挖掘领域的研究人员面对提升数学模型的预测性能问题，都着力于预测算法的研究。而数据预处理方法及相关技术的研究都相对较少。数据预处理中一类关键方法是数据变换，它是指将数据集中数据的某种表示形式转换成一种便于挖掘或学习的形式，从而使得数据分析过程更为方便，分析结果更为准确。常用的数据变换方法有主成分分析、数据规范化等，如使用基于距离的数据挖掘算法时，将各维特征数据进行归一化即将其映射到[0,1]之间，消除各项特征之间由于单位和数值量级之间的差别带来的影响，从而提升算法的预测性能。然而数据变换能够带来的预测性能增益远不止于此。例如，基于多层前馈神经网络的深度学习，已在很多领域取得了显著成果，其基本原理就是数据一系列的非线性变换，遗憾的是深度学习的这些变换一般不具可解释性。在数据预处理中，如何定义数据样本间的相似性度量规则及设计有效的目标函数进而提升数据预处理收益是数据变换方法需要解决的首要问题。现有技术中普遍存在的一个问题是目标函数的设计及优化过程缺乏可解释性，如何在保证学习算法性能的前提下，同时使得变换矩阵W的求解过程具有可解释性是一个极具挑战性但又十分有意义的问题。
技术实现思路
针对上述技术的不足...

【技术保护点】
1.一种基于1/2相似度偏离的数据预处理方法，其特征在于：包括以下步骤：(S1)给定训练数据集S，设计一个前馈神经网络，其中网络的连接权重即为所求的变换矩阵W；(S2)以迭代的方式最小化设定的目标函数E(W)，并逐步更新变换矩阵W的值；(S3)求得最终的变换矩阵W，并对原始的训练数据集S进行变换，从而得到新的训练数据集S

【技术特征摘要】
1.一种基于1/2相似度偏离的数据预处理方法，其特征在于：包括以下步骤：(S1)给定训练数据集S，设计一个前馈神经网络，其中网络的连接权重即为所求的变换矩阵W；(S2)以迭代的方式最小化设定的目标函数E(W)，并逐步更新变换矩阵W的值；(S3)求得最终的变换矩阵W，并对原始的训练数据集S进行变换，从而得到新的训练数据集S(W)。2.根据权利要求1所述的基于1/2相似度偏离的数据预处理方法，其特征在于：所述步骤(S2)中目标函数的公式为：其中为经过W变换后样本和在新的特征空间的相似性，而是W＝I时变换前样本和在原始特征空间的相似性，其中最小化设定的目标函数E(W)的方法为：(S21)根据距离相似性公式确定β值，并利用单位阵将变换矩阵W初始化为I，其中相似性公式为：式中β为平衡参数，与为变换前的两个不同的向量，与为变换后的两个不同的向量，d为距离，为欧式距离；(S22)计算变换矩阵更新的梯度值，计算过程为：定义：则：(S23)利用W+ΔW更新矩阵W中每个元素wij的值，其中：其中，η为学习率，学习率η的求解方法为：(S24)重复步骤(S22)、(S23)、(S24)，直到收敛为止，即直到目标函数E(W)的值小于或等于给定阈值，或者直到迭代次数超过某阈值。3.根据权利要求2所述的基于1/2相似度偏离的数据预处理方法，其特征在于：所述网络结构为前馈神经网络结构，并且所述目标函数E(W)的优化过程为基于前馈神经网络进行优化的过程。4.根据权利要求2所述的基于1/2相似度偏离的数据预处理方法，其特征在于：变换后数据间相似度矩阵ρ(W)的模糊性公式为：其中当最小化目标函数E(W)后求得的相似度趋于1或者0时，Fuzzin...

【专利技术属性】
技术研发人员：王熙照，周欣蕾，颜达森，
申请(专利权)人：深圳大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人