当前位置: 首页 > 专利查询>深圳大学专利>正文

基于1/2相似度偏离的数据预处理方法技术

技术编号:21400195 阅读:29 留言:0更新日期:2019-06-19 07:19
本发明专利技术公开一种基于1/2相似度偏离的数据预处理方法,这种预处理是一种线性变换,主要任务是学习一个变换矩阵W,然后将原始数据集S变换成为新的数据集

【技术实现步骤摘要】
基于1/2相似度偏离的数据预处理方法
本专利技术涉及数据挖掘
,且更具体地涉及一种基于1/2相似度偏离的数据预处理方法。
技术介绍
众多领域的一些学习问题都能归结于一个数学模型的预测问题。为了能够得到更高的预测精度和更快的预测速度,各类预测算法层出不穷。然而除了对算法性能的不断追求外,从数据本身入手进行预处理操作对提高算法的预测效果也具有重要意义。但如今大多数数据挖掘领域的研究人员面对提升数学模型的预测性能问题,都着力于预测算法的研究。而数据预处理方法及相关技术的研究都相对较少。数据预处理中一类关键方法是数据变换,它是指将数据集中数据的某种表示形式转换成一种便于挖掘或学习的形式,从而使得数据分析过程更为方便,分析结果更为准确。常用的数据变换方法有主成分分析、数据规范化等,如使用基于距离的数据挖掘算法时,将各维特征数据进行归一化即将其映射到[0,1]之间,消除各项特征之间由于单位和数值量级之间的差别带来的影响,从而提升算法的预测性能。然而数据变换能够带来的预测性能增益远不止于此。例如,基于多层前馈神经网络的深度学习,已在很多领域取得了显著成果,其基本原理就是数据一系列的非线性变换,遗憾的是深度学习的这些变换一般不具可解释性。在数据预处理中,如何定义数据样本间的相似性度量规则及设计有效的目标函数进而提升数据预处理收益是数据变换方法需要解决的首要问题。现有技术中普遍存在的一个问题是目标函数的设计及优化过程缺乏可解释性,如何在保证学习算法性能的前提下,同时使得变换矩阵W的求解过程具有可解释性是一个极具挑战性但又十分有意义的问题。
技术实现思路
针对上述技术的不足,本专利技术公开一种基于1/2相似度偏离的数据预处理方法,能够在提升学习算法性能的前提下,同时使得目标函数得到优化,使得数据变换矩阵的求解过程具有可解释性,改进了相似性学习算法,提高了数据预测能力和预测速度。本专利技术采用以下技术方案:一种基于1/2相似度偏离的数据预处理方法,包括以下步骤:(S1)给定训练数据集S,设计一个前馈神经网络,其中网络的连接权重即为所求的变换矩阵W;(S2)以迭代的方式最小化设定的目标函数E(W),并逐步更新变换矩阵W的值;(S3)求得最终的变换矩阵W,并对原始的训练数据集S进行变换,从而得到新的训练数据集S(W)。作为本专利技术进一步的技术方案,所述步骤(S2)中目标函数的公式为:其中为经过W变换后样本和在新的特征空间的相似性,而是W=I时为变换前样本和在原始特征空间的相似性,并且其中最小化设定的目标函数E(w)的方法为:(S21)根据距离相似性公式确定β值,并利用单位阵将变换矩阵W初始化为I,其中相似性公式为:式中,β为平衡参数,与为变换前的两个不同的向量,与为变换后的两个不同的向量,d为距离,为欧式距离;(S22)计算变换矩阵更新的梯度值,计算过程为:定义:则:(S23)利用W+ΔW更新矩阵W中每个元素wij的值,其中:其中,η为学习率,学习率η的求解方法为:(S24)重复步骤(S22)、(S23)、(S24),直到收敛为止,即直到目标函数E(W)的值小于或等于给定阈值,或者直到迭代次数超过某阈值。作为本专利技术进一步的技术方案,所述网络结构为前馈神经网络结构,并且所述目标函数E(W)的优化过程为基于前馈神经网络进行优化的过程。作为本专利技术进一步的技术方案,变换后数据间相似度矩阵ρ(W)的模糊性公式为:其中当最小化目标函数E(W)后求得的相似度趋于1或者0时,Fuzziness(ρ(W))的值为最小值。作为本专利技术进一步的技术方案,采用以下评价指标评价聚类任务:ARI、NMI、CHI或SI,其中ARI和NMI为外部聚类指标,SI和CHI为内部聚类指标。作为本专利技术进一步的技术方案,采用以下评价指标评价分类任务:训练精度与测试精度,其中:所述训练精度的公式为:TrainingAccuracy=正确分类的样本/训练数据S中的总样本数;所述测试精度的公式为:TestingAccuracy=正确分类的样本/测试数据T中的总样本数。作为本专利技术进一步的技术方案,所述目标函数E(W)的拓展公式为:f(x,y)=α(x)(1-a(y))+a(y)(1-a(x));其中:α(x)、α(y)是定义于[0,1]区间的光滑函数,表示形式为:作为本专利技术进一步的技术方案,当α(y)=y时,目标函数的公式为:f(x,y)=x(1-y)+y(1-x)(0≤x,y≤1),其中:当y>0.5时,即f(x,y)对于固定的y>0.5关于x是严格单调减函数;当y<0.5时即f(x,y)对于固定的y<0.5关于x是严格单调增函数。作为本专利技术进一步的技术方案,通过所述网络结构对所述变换矩阵W进行迭代求解的方法还包括批量梯度下降或随机梯度下降法。作为本专利技术进一步的技术方案,作为平衡参数当W=I为n阶单位矩阵时,退化为欧式距离。积极有益效果:本专利技术采用数据变换技术具有明显的可解释性,并且对基于相似性的学习算法有显著改进;采用的目标函数具有很强的拓展性,增加了数据变换的灵活性;本专利技术采用前馈神经网络表示及相应的梯度下降算法的求解,提高了的学习效率;本专利技术所提出的数据预处理技术在保证了数据预处理过程可解释性的前提下,显著提升了基于相似性的学习算法的预测精度或聚类质量等指标,使得数据分析过程更为方便,分析结果更为准确,大大提高了数据预处理收益。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:图1为本专利技术数据处理的原理结构示意图;图2为专利技术目标函数优化过程的网络表示结构示意图;图3为本专利技术数据处理过程的方法流程示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。为了更清楚地理解本专利技术,先对本专利技术中的使用的符号进行以下说明。其中对符号定义如下:Rn:n维空间(n=训练数据的特征数);S:N个训练样本(即训练数据)的集合,N为有限数,且S(W):变换后训练样本的集合;W:变换矩阵,W=(wij)n×n;I:初始化的变换矩阵,(单位阵);数据变换前后的向量表示,通过矩阵W变换之后样本p与样本q之间的距离度量;xip:数据集中样本p的第i个特征的值,xiq类同;原始数据中样本p与样本q的相似度;通过矩阵W变换之后样本p与样本q的相似度;ρ(W):数据变换后的相似度矩阵,为ρ(W)中p行q列的元素值;β:相似度ρ(w)的公式中所定义的平衡参数(正实数);E(W):待优化的目标函数;ΔW:变换矩阵中元素wij的改变量Δwij组成的矩阵即,ΔW=(Δwij)n×n;η:矩阵W更新的学习率。通过对符号进行解释说明,下面结合图1-图3对本专利技术做进一步地描述。一种基于1/2相似度偏离的数据预处理方法:采用以下步骤进行:(S1)给定训练数据集S,设计一个前馈神经网络,其中网络的连接权重即为所求的变换矩阵W;在本步骤中,通常设是一个含有N个n维列向量的数据集即,同时,W=(wij)n×n本文档来自技高网...

【技术保护点】
1.一种基于1/2相似度偏离的数据预处理方法,其特征在于:包括以下步骤:(S1)给定训练数据集S,设计一个前馈神经网络,其中网络的连接权重即为所求的变换矩阵W;(S2)以迭代的方式最小化设定的目标函数E(W),并逐步更新变换矩阵W的值;(S3)求得最终的变换矩阵W,并对原始的训练数据集S进行变换,从而得到新的训练数据集S

【技术特征摘要】
1.一种基于1/2相似度偏离的数据预处理方法,其特征在于:包括以下步骤:(S1)给定训练数据集S,设计一个前馈神经网络,其中网络的连接权重即为所求的变换矩阵W;(S2)以迭代的方式最小化设定的目标函数E(W),并逐步更新变换矩阵W的值;(S3)求得最终的变换矩阵W,并对原始的训练数据集S进行变换,从而得到新的训练数据集S(W)。2.根据权利要求1所述的基于1/2相似度偏离的数据预处理方法,其特征在于:所述步骤(S2)中目标函数的公式为:其中为经过W变换后样本和在新的特征空间的相似性,而是W=I时变换前样本和在原始特征空间的相似性,其中最小化设定的目标函数E(W)的方法为:(S21)根据距离相似性公式确定β值,并利用单位阵将变换矩阵W初始化为I,其中相似性公式为:式中β为平衡参数,与为变换前的两个不同的向量,与为变换后的两个不同的向量,d为距离,为欧式距离;(S22)计算变换矩阵更新的梯度值,计算过程为:定义:则:(S23)利用W+ΔW更新矩阵W中每个元素wij的值,其中:其中,η为学习率,学习率η的求解方法为:(S24)重复步骤(S22)、(S23)、(S24),直到收敛为止,即直到目标函数E(W)的值小于或等于给定阈值,或者直到迭代次数超过某阈值。3.根据权利要求2所述的基于1/2相似度偏离的数据预处理方法,其特征在于:所述网络结构为前馈神经网络结构,并且所述目标函数E(W)的优化过程为基于前馈神经网络进行优化的过程。4.根据权利要求2所述的基于1/2相似度偏离的数据预处理方法,其特征在于:变换后数据间相似度矩阵ρ(W)的模糊性公式为:其中当最小化目标函数E(W)后求得的相似度趋于1或者0时,Fuzzin...

【专利技术属性】
技术研发人员:王熙照周欣蕾颜达森
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1