数据预测方法和数据预测装置制造方法及图纸

技术编号:23162293 阅读:21 留言:0更新日期:2020-01-21 22:05
本发明专利技术实施例提出一种数据预测方法和装置,该数据预测方法包括:确定地理平面区域,所述地理平面区域包括多个地理区格,所述多个地理区格的交汇点构成多个预测点,所述地理平面区域中包括多个数据获取点;依据各个数据获取点获得的观测数据,确定与所述各个数据获取点相邻的预测点的数据;对于与所述各个数据获取点不相邻的预测点,基于以所述不相邻的预测点为中心的环绕区域的区域特征数据,利用机器学习模型组件确定所述不相邻的预测点的数据。本发明专利技术利用机器学习模型对地理位置相关的数据进行预测,提高了预测的准确度。

Data prediction method and data prediction device

【技术实现步骤摘要】
数据预测方法和数据预测装置
本专利技术涉及信息处理领域,尤其涉及一种数据预测方法和数据预测装置。
技术介绍
在一些地理相关的预测场景中,获取数据是提高预测准确程度的瓶颈。例如,在针对某一个区域的预测中,需要将该区域按照经纬度等方式划分成多个子区域,每一个子区域或者子区域的边界对应一个预测点。预测过程需要从每个预测点采集数据信息。但是如果在每一个预测点均架设一个用于获取数据的数据获取点,则会造成成本的大幅增加。例如,在与地理相关的气象预报的业务场景中,当前所观测到的数据质量直接影响着天气预报的精准度,天气预报是一件非常困难的事情,一个地区未来几小时的天气情况可能不单单跟本地区的指标有关,可能还跟它周边地区当前、过去的指标有关,其地区彼此之间关联性非常强。重要的气象指标一般有降水、风速、湿度、温度、露点温度等,这些基础气象指标是我们进行气象预测的基础,目前只能通过在地面大量架设数据获取点来实时获取。另一方面,随着气象服务精细化的需求,一般要做到“公里”级别的预报,即在相邻1公里的预测点处,需根据自身预测点所观察到的指标数据,给出不同的天气预报结果。在气象传统的认知当中,要想达到这个目的,就必须在每个相邻一公里的预测点处架设数据获取点,但从成本问题的角度来看,这几乎是不可能完成的任务但是,由于架设数据获取点的成本太高,架设有数据获取点的有数据预测点只占所有预测点的5%左右,即绝大多数都是无数据预测点。为了满足每一预测点均有数据的要求,现在业界广泛使用线性插值法获取预测点的数据,即,通过两端有数据的预测点对中间没有预测点的数据进行插值。但线性插值的方法也存在着三个主要的缺点:首先,线性插值法只能线性单调预测而并不能预测极值。也就是说,利用线性插值法,是人为地假定了中间无数据预测点的值是按两端的观测数据值线性增大或减小,所以无论怎么插值,并不可能出现极值改变单调性,且值的范围永远无法突破两端值的区间。但在实际的气象平面问题中,显然没有这样的假设,极值完全可能出现在无数据预测点当中,甚至有可能大于或小于两个端点值。其次,线性插值法没有从整个平面填充的角度进行插值。线性插值法从根本来说还是属于点与点之间的预测,并没有将平面上另外的信息考虑进来,导致填充值的预测过于简单粗暴,从而降低了填充的精准度。再次,线性插值法对于局部有大量无数据预测点的预测效果欠佳。当在一个局部范围内没有有数据预测点或只有少量有数据预测点时,线性插值法并不能将有数据预测点密集地区的填充经验照搬复制过来,还是只能进行机械插值,导致获取的数据不准确。由上述可知,现有的线性插值法明显达不到获取准确的预测数据、实现精确预测的目的。除了上述气象预测的场景,在其他与地理位置相关的预测场景中,例如针对交通拥堵状况预测、人流量密度预测,海洋渔情预测等情形,由于数据获取点的成本缘故,现有技术同样是利用插值法预估大多数个点的数据,因此同样具有获取数据不准确、预测效果欠佳的问题。
技术实现思路
为解决现有技术存在的问题,本专利技术实施例提出了一种数据预测方法和数据预测装置,以解决现有技术存在的无法获得相对准确的预测数据、导致预测效果欠佳的问题。本专利技术一实施例提出一种数据预测方法,包括:确定模块,用于确定地理平面区域,所述地理平面区域包括多个地理区格,所述多个地理区格的交汇点构成多个预测点,所述地理平面区域中包括多个数据获取点;依据各个数据获取点获得的观测数据,确定与所述各个数据获取点相邻的预测点的数据;对于与所述各个数据获取点不相邻的预测点,基于以所述不相邻的预测点为中心的环绕区域的区域特征数据,利用机器学习模型组件确定所述不相邻的预测点的数据。本专利技术一实施例还提出一种数据预测装置,包括:确定模块,用于确定地理平面区域,所述地理平面区域包括多个地理区格,所述多个地理区格的交汇点构成多个预测点,所述地理平面区域中包括多个数据获取点;区域数据确定模块,用于依据各个数据获取点获得的观测数据,确定与所述各个数据获取点相邻的预测点的数据;预测点数据计算模块,用于对于与所述各个数据获取点不相邻的预测点,基于以所述不相邻的预测点为中心的环绕区域的区域特征数据,利用机器学习模型组件确定所述不相邻的预测点的数据。本专利技术一实施例还公开一种计算处理装置,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述计算处理装置执行上述的方法。本申请一实施例还公开一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得计算处理装置执行上述的方法。本专利技术实施例提出的预测方法和预测装置,至少具有如下技术效果:本专利技术将机器学习应用在地理位置相关的预测场景中,通过在地理区域中设置多个预测点,利用该机器学习模型来预测未来该预测点的数据。由于本专利技术的机器学习模型采集的数据是同一地理区域中多个数据获取点的数据,这些数据获取点在地理上有相互的关联,因此通过机器学习模型可以充分挖掘地理位置对各预测点的数据之间的相互影响,使得所获取的预测数据能够充分考虑地理位置的影响,相比于传统采用线性插值的方法,本专利技术的方法提高了预测数据的准确性。在本专利技术优选实施例中,本专利技术可以利用机器学习的方式根据历史数据训练机器学习模型,获得预测精度更好的机器学习模型。此外,针对某些周边数据较少的区域,本专利技术可以丢弃较差的样本,尽量选取好的样本作为样本数据用于训练机器学习模型,提高了机器模型的精度。在本专利技术优选实施例中,由于使用了机器学习模型来进行预测,克服了传统方案中只能实现线性单调预测而不能预测极值的缺陷,利用了平面上全样本的数据而非个别点之间的线性预测,所利用的信息更加多元。此外,由于机器学习模型是通过整体预测点作为样本训练获得的,所以适用于平面的任何位置,并不会由于局部缺少个别预测点而造成准确率下降。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1所示为本专利技术一实施例的预测方法的流程图。图2所示为观测数据预测点化的示意图。图3所示为区域划分的示意图。图4所示为本专利技术第二实施例的预测方法的流程图。图5所示为图4所示的S205的子步骤的流程图。图6所示为本专利技术第三实施例的方框图。图7所示为本专利技术第四实施例的方框图。图8为图7中预测点划分模块包括的子模块的方框图。图9示意性地示出了用于执行根据本专利技术的方法的计算设备的框图。图10示意性地示出了用于保持或者携带实现根据本专利技术的方法的程序代码的存储单元。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清本文档来自技高网
...

【技术保护点】
1.一种数据预测方法,其特征在于,包括:/n确定地理平面区域,所述地理平面区域包括多个地理区格,所述多个地理区格的交汇点构成多个预测点,所述地理平面区域中包括多个数据获取点;/n依据各个数据获取点获得的观测数据,确定与所述各个数据获取点相邻的预测点的数据;/n对于与所述各个数据获取点不相邻的预测点,基于以所述不相邻的预测点为中心的环绕区域的区域特征数据,利用机器学习模型组件确定所述不相邻的预测点的数据。/n

【技术特征摘要】
1.一种数据预测方法,其特征在于,包括:
确定地理平面区域,所述地理平面区域包括多个地理区格,所述多个地理区格的交汇点构成多个预测点,所述地理平面区域中包括多个数据获取点;
依据各个数据获取点获得的观测数据,确定与所述各个数据获取点相邻的预测点的数据;
对于与所述各个数据获取点不相邻的预测点,基于以所述不相邻的预测点为中心的环绕区域的区域特征数据,利用机器学习模型组件确定所述不相邻的预测点的数据。


2.根据权利要求1所述的数据预测方法,其特征在于,依据各个数据获取点获得的观测数据,确定与所述各个数据获取点相邻的预测点的数据的步骤之后,所述方法还包括:
利用与所述多个数据获取点相邻的预测点的历史数据和该预测点周围的多个区域对应的历史区域特征数据,训练所述机器学习模型。


3.根据权利要求1所述的数据预测方法,其特征在于,所述多个预测点是根据地理位置划分形成的预测点。


4.根据权利要求1所述的数据预测方法,其特征在于,所述确定地理平面区域的步骤之后,所述方法还包括:
确定每一预测点对应的相邻范围;
获取该预测点对应的相邻范围内的数据获取点的观测数据。


5.根据权利要求4所述的数据预测方法,其特征在于,所述依据各个数据获取点获得的观测数据,确定与所述各个数据获取点相邻的预测点的数据的步骤包括:
当该预测点对应的相邻范围内存在一个数据获取点时,将所述数据获取点的观测数据作为该预测点的数据;以及
当该预测点对应的相邻范围内存在多个数据获取点时,计算该范围内的多个数据获取点的观测数据的平均值或加权平均值,作为该预测点的预测点数据。


6.根据权利要求4所述的数据预测方法,其特征在于,所述相邻范围为0.5km。


7.根据权利要求1所述的数据预测方法,其特征在于,所述预测点数据包括气象预测数据、海洋渔情预测数据、交通拥堵状况预测数据、人流量密度预测数据其中一种。


8.根据权利要求2所述的数据预测方法,其特征在于,所述利用与所述多个数据获取点相邻的预测点的历史数据和该预测点周围的多个区域对应的历史区域特征数据,训练所述机器学习模型的步骤之前,所述方法还包括:
从多个预测点中选择符合样本要求的有效的预测点。


9.根据权利要求8所述的数据预测方法,其特征在于,所述从多个预测点中选择符合样本要求的有效的预测点的步骤包括:
确定预测点对应的区域中包含数据获取点的区域的数量;
当所述区域的数量符合预设条件时,确认所述预测点为有效的预测点。


10.一种数据预测装置,其特征在于,包括:
确定模块,用于确定地理平面区域,所述地理平面区域包括多个地理区格,所述多个地理区格的交汇点构成多个预测点,所述地理平面区域中包括多个数据获取点;
预测点数据确定模块,用于依据各个数据获取点获得的观测数据,确定与所述各个数据获取点相邻的预测点的数据;
预测点数据计算模块,用于对于与所述各个数据获取点不相邻的预测点,基于以所述不相邻的预测点为中心的环绕区域的区域特征数据,利用机器学习模型组件确定所述不相邻的预测点的数据...

【专利技术属性】
技术研发人员:张柯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1