【技术实现步骤摘要】
一种基于熵稳定约束的自动数据降维方法
本专利技术涉及高维空间数据降维
,特别涉及一种基于熵稳定约束的自动数据降维方法。
技术介绍
近年来,大数据时代一词被广泛提及,它是指在当今信息科技蓬勃发展的背景下,人们步入了可以获取海量数据信息的新时代,对这些海量数据的挖掘与合理应用,则是当前亟待解决的科学问题。但是这些数据具有高维度、非线性等复杂特性,如果不经过适当的降维方法用以提取有效特征,直接对其分析是十分困难的。降维是指将高维空间内数据通过一种线性或非线性映射方法,投影至低维空间,获取最能够表征原始数据的特征变量。无监督降维是指直接从高维数据中提取特征,而不需要使用结果或者标签,主要学习的是特征之间的关系。与本专利技术相关的现有技术一主成分分析是一种无监督降维的统计方法,通过线性变换将原始数据投影到若干正交的高方差方向,这些投影数据称为主成分。应用于降维的主成分分析,是只保留数据集当中对方差贡献最大的特征,也即保留低维主成分,忽略高维主成分。图1即为一个呈现高斯分布的点云数据集的主成分分析结果示意图 ...
【技术保护点】
1.一种基于熵稳定约束的自动数据降维方法,其特征在于,包括以下步骤:/n步骤1,监测训练过程中网络输入层、隐含层和输出层的熵分布特征;/n步骤2,依据网络学习目的灵活地组合待分析熵分布特征匹配差异;/n步骤3,将匹配差异作为惩罚项加入网络整体损失函数中或是特异网络层的梯度项,而后经过多轮迭代后完成数据的降维,以用于后续分析;除了将不同组合的熵匹配差异作为惩罚项加入到自编码器的损失函数中,作为网络训练过程的约束项,达到网络训练过程中使熵趋于稳定的目标;还可以对特异网络层的梯度项,选择不同的惩罚项的惩罚系数,灵活地约束不同网络层的熵的稳定程度。/n
【技术特征摘要】
1.一种基于熵稳定约束的自动数据降维方法,其特征在于,包括以下步骤:
步骤1,监测训练过程中网络输入层、隐含层和输出层的熵分布特征;
步骤2,依据网络学习目的灵活地组合待分析熵分布特征匹配差异;
步骤3,将匹配差异作为惩罚项加入网络整体损失函数中或是特异网络层的梯度项,而后经过多轮迭代后完成数据的降维,以用于后续分析;除了将不同组合的熵匹配差异作为惩罚项加入到自编码器的损失函数中,作为网络训练过程的约束项,达到网络训练过程中使熵趋于稳定的目标;还可以对特异网络层的梯度项,选择不同的惩罚项的惩罚系数,灵活地约束不同网络层的熵的稳定程度。
2.根据权利要求1所述的一种基于熵稳定约束的自动数据降维方法,其特征在于:步骤1,监测训练过程中网络输入层、隐含层和输出层的熵分布特征具体为:设X是网络某一层的输出,其取值集合为χ={x0,x1,…,xN},概率分布函数p(x)=Pr(X=x),x∈χ,则定义事件X=xi的信息量为:
I(xi)=-ln(P(xi))
变量X对于每一种取值xi都有相应的概率P(xi),对其求期望即得该层输出X的熵:
H(X)=E[I(X)]=E[-ln(P(X))]。
3.根据权利要求1所述的一种基于熵稳定约束的自动数据降维方法,其...
【专利技术属性】
技术研发人员:李海峰,熊文静,马琳,李洪伟,丁施航,朱泓嘉,姜文浩,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。