一种提高大数据处理质量的方法技术

技术编号:15329459 阅读:90 留言:0更新日期:2017-05-16 13:08
本发明专利技术公开了一种提高大数据处理质量的方法,将对大数据处理和分析问题转化为求解最小值问题,结合大数据处理特点,对现有数值优化算法进行改进,得到一类加快算法的收敛速度的数值优化方法。本发明专利技术通过在现有迭代算法基础上,引入Powerball函数,具体而言,是在迭代公式中引入关于目标函数梯度项的非线性Powerball函数,该函数中含有一个动力系数,用以提高算法的收敛速率。本发明专利技术具有收敛速度快、运行时间短等优点,可以很好的解决大数据分析的速度和质量,能显著减少计算机的运行时间。

Method for improving quality of large data processing

The invention discloses a method for improving the processing quality of the data, the data processing and analysis problem is transformed into solving the minimization problem, combined with the characteristics of data processing, the existing numerical optimization algorithm, numerical optimization method to accelerate the convergence rate of a class algorithm. The invention is based on the existing iterative algorithm, introducing the Powerball function, in particular, is introduced into the nonlinear Powerball function on the objective function gradient in the iteration formula, with a dynamic coefficient in the function, in order to improve the convergence rate. The invention has the advantages of fast convergence speed, short running time, etc., and can solve the speed and quality of large data analysis, and can significantly reduce the running time of the computer.

【技术实现步骤摘要】
一种提高大数据处理质量的方法
本专利技术属于大数据处理及数据挖掘问题领域,更具体地,涉及一类提高数据分析速度和数据分析质量的数据处理技术。
技术介绍
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。计算机领域的发展,以及国际互联网络的出现,为求解大规模数据的优化问题提供了方便。进入21世纪以来,求解大规模优化问题的算法设计以及理论创新已受到各研究领域专家的广泛关注。如何将大数据的分析和处理问题转化为求解规模庞大的数值优化问题,以及如何求解大规模的优化问题是当下各领域研究者关注的重点之一。而早先的关于求解优化问题的工作主要集中于已有迭代算法中参数的选取,通过选取不同参数值得到了一些较为经典的数值优化算法,至今仍被广泛应用的有著名的梯度下降法、牛顿法等方法。然而在数值优化算法中,算法的收敛速率是衡量该算法优劣的重要指标,因此如何加快算法的收敛速率显得尤为重要。实质上,当求解大规模的优化问题时,初始迭代计算的约束是至关重要的大数据具有数据体量巨大、数据类型繁多、价值密度低、处理速度快等特点,研究求解大规模数据分析问题的具有计算简便、存储需求量小的高效率的算法具有十分重要的理论和实际意义。如何快速且高效的从各种各样类型的数据中,快速获得有价值信息,是大数据处理的首要目标之一。而数据处理的本质,等价于既快速又高效的求解最优化的问题。实际上,最优化这一概念是无处不在的,因此作为达到最优的一种手段的最优化方法,应该是而且确实也是变化无穷的。运筹学中所处理的问题绝大部分都是最优化问题。用来解决这些问题的方法,例如数学规划、排队论、决策分析、模拟技术等等,自然也就属于最优化方法这一范畴。除此之外,最优化还包括工程控制、最优控制、系统科学等。其中最优控制主要用于对各种控制系统的优化,例如,导弹系统的最优控制,能保证用最少燃料完成飞行任务,用最短时间达到目标;再如飞机、船舶、电力系统等的最优控制,化工、冶金等工厂的最佳工况的控制。计算机接口装置不断完善和优化方法的进一步发展,还为计算机在线生产控制创造了有利条件。最优控制的对象也将从对机械、电气、化工等硬件系统的控制转向对生态、环境以至社会经济系统的控制。最优化方法讨论的是决策问题的最佳选择之特性,构造寻求最优解的计算方法,研究这些计算方法的理论性质及实际计算表现。伴随着计算机的高速发展和优化计算方法的进步,较大规模的优化问题得到解决。因为最优化问题广泛见于经济计划、工程设计、生产管理、交通运输、国防等重要领域,它已受到政府部门、科研机构和产业部门的高度重视。面对数据规模庞大等特点,现有的求解优化问题的数值算法无论是收敛速度,还是运行时间及运行内存等方面,均不能满足大数据处理的要求。现有的处理优化问题的算法有很多,但主要还是较为经典的梯度下降法、牛顿法和拟牛顿法,下面简称含有梯度项的数值方法为梯度类方法。i)梯度下降法:梯度下降法是一种最优化算法,是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不再具有较强的实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。ii)牛顿法:牛顿法是求解优化问题(1.1)的古老而有效的方法,相较于其他的求解无约束问题的方法,该方法在找到最优点时需要较少的迭代次数、函数值计算次数。古典的牛顿法的一个显著的优点是其局部二次收敛性,然而牛顿法成功的关键是利用了海塞Hesse矩阵提供的曲率信息,牛顿法要求计算目标函数的二阶导数,并且当迭代点远离问题的解时,函数f的Hesse矩阵可能不正定甚至奇异,此时牛顿法失败。iii)拟牛顿法:由上述牛顿法计算Hesse矩阵的工作量较大,并且有的目标函数的Hesse矩阵很难计算,甚至不好求出,拟牛顿法就是构造出目标函数的曲率近似,且不需要明显形式的Hesse矩阵,同时具有收敛速度快的有点。考虑如下应用最广泛的拟牛顿法:L-BFGS方法首先,假设目标函数f(x)是二阶连续可微的,利用Taylor展开可得其中X(k+1)=X(k)+αkdk,dk=-Hk▽f(X(k))。构造▽2f(X(k))的合适的逼近矩阵Bk,使得如下等式成立Bk+1Sk=Yk,其中,Sk=X(k+1)-X(k),Yk=▽f(X(k+1))-▽f(X(k))。下一步迭代的Bk+1通过如下修正公式得到:为了避免在每次迭代中求令相应的可通过如下修正公式计算下一次迭代所需的Hk+1,式中k取值为0,1,2……,当k=0初时取初始矩阵H0为单位矩阵。拟牛顿法是建立在牛顿法基础上的优化算法,该方法主要利用目标函数值和一阶导数的信息进行迭代计算,其具有收敛速度快的特点,且避免了目标函数二阶导数的计算。但是当问题的维数非常大的时候,该方法需要非常大的存储空间。上述这些算法在处理大数据相关的问题时,面临着收敛速度慢、精度较低、以及计算量大和对内存的要求较大等问题,因此不适合用于求解与大数据相关的一些优化问题,以及对数据中所包含信息的开发和应用等方面。
技术实现思路
针对上述问题,本专利技术提供了一种提高数据处理质量的方法,用于求解与大数据相关的一些优化问题或求解目标函数最小值的问题,本专利技术所提供的方法解决现有技术存在的收敛速度慢、精度较低、以及计算量大和对内存的要求较大等问题本专利技术提出的方法包括如下步骤:(1)根据收集到的数据特性,对数据进行处理:如果数据处理问题是否是求解函数的最小值优化问题:是则转步骤(2);否则,转化为求解最小值优化问题,转步骤(2);(2)建立最小值优化模型其中Rn为实数域的n维向量,f(X)为目标函数是一个二次连续可微的非线性函数,X为n维向量,其初值为X(0);(3)选取梯度类优化方法,所述方法包括梯度下降法、牛顿法和L-BFGS方法;根据选取的优化方法,引入Powerball函数,建立Powerball迭代公式,进行迭代;所述Powerball函数表达式为σγ(z)=sign(z)|z|γ,γ∈(0,1)为Power系数,z∈R;对于梯度下降法,对应的Powerball迭代公式为:对于牛顿法,对应的Powerball迭代公式为:X(k+1)=X(k)-(▽2f(X(k)))-1σγ(▽f(X(k)));对于L-BFGS方法,对应的Powerball迭代公式为:其中,是目标函数的Hesse矩阵的逼近矩阵,因此与Hesse矩阵有相同的维数;Sk=X(k+1)-X(k),是与X(k)有相同的维数的向量;Yk=▽f(X(k+1))-▽f(X(k)),即这里,Bk是目标函数Hesse矩阵的逼近矩阵,与Hesse矩阵有相同维数;式中,▽f(X)为目标函数f(X)的梯度;▽2f(X)为目标函数f(X)的Hesse矩阵;k是迭代次数,取值为0,1,2……,αk为第k次迭代时的步长,X(k)为第k次迭代得到的逼近值;当k=0时,Bk初值取为单位矩阵,X(k)的初值可任意选取;σγ(·):R→R为Powerball函数σγ对目标函数梯度的非线性变换即Powerball变换,对任意的向量X=(x1,...,xn)T,经Powerball函数σγ的非线性变换,成为σγ(X)=(本文档来自技高网
...
一种提高大数据处理质量的方法

【技术保护点】
一种提高大数据处理质量的方法,其特征在于,包括如下步骤:(1)根据收集到的数据特性,对要优化数据进行分析:如果数据处理问题是否是求解函数的最小值优化问题:是则转步骤(2);否则,通过对数据的正则化处理,转化为求解最小值优化问题,转步骤(2);(2)建立最小值优化模型

【技术特征摘要】
1.一种提高大数据处理质量的方法,其特征在于,包括如下步骤:(1)根据收集到的数据特性,对要优化数据进行分析:如果数据处理问题是否是求解函数的最小值优化问题:是则转步骤(2);否则,通过对数据的正则化处理,转化为求解最小值优化问题,转步骤(2);(2)建立最小值优化模型其中Rn为实数域的n维向量,f(X)为目标函数,是一个二次连续可微的非线性函数,X为n维向量;(3)选取梯度类优化方法,所述方法包括梯度下降法、牛顿法和L-BFGS方法;具体根据选取的优化方法,引入Powerball函数,建立Powerball迭代公式,进行迭代;所述Powerball函数表达式σγ(z)=sign(z)|z|γ,γ∈(0,1)为Power系数,z∈R;对于梯度下降法,对应的Powerball迭代公式为:对于牛顿法,对应的Powerball迭代公式为:X(k+1)=X(k)-(▽2f(X(k)))-1σγ(▽f(X(k)));对于L-BFGS方法,对应的Powerball迭代公式为:其中,是目标函数的Hesse矩阵的逼近矩阵,与Hesse矩阵有相同的维数;Sk=X(k+1)-X(k),是与X(k)有相同的维数的向量;X(k+1)=X(k)+αkdk,Yk=▽f(X(k+1))-▽f(X(k)),即式中,▽f(X)为目标函数f(X)的梯度;▽2f(X)为目标函数f(X)的Hesse矩阵;k是迭代次数,取值为0,1,2,……,αk为第k次迭代时的步长,X(k)为第k次迭代得到的逼近值;当k=0时,Bk初值取为单位矩阵,X(k)的初值X(0)可任意选取;σγ(·):R→R为Powerball函数σγ对目标函数梯度的非线性变换即Powerball变换;(4)判断收敛性,具体判断方法如下:当目标函数是强凸函数,且其梯度满足L-Lipschitz条件时,则判别迭代次数是否大于N;是则迭代结束,输出最优值X(k+1);否则继续迭代;当目标函数不是强凸函数,或其梯度不满足L-Lipschitz条件时,则判断|...

【专利技术属性】
技术研发人员:袁烨
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1