时间序列数据的补全方法、装置及电子设备制造方法及图纸

技术编号：20566597 阅读：24 留言：0更新日期：2019-03-14 09:25

本发明专利技术公开了一种时间序列数据的补全方法、装置及电子设备，该方法包括：将采集的数据按照设定格式构建数据集，所述数据集至少包含一个系列的数据；将每个系列需补全的时间点插入所述数据集中；将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内；对分区内的数据进行排序得到数据列表；分别对分区内的数据进行遍历，补全数据。本方法在分布式的计算框架下，对缺失的时间序列数据进行向前补全或者是向后补全，在进行数据补全的时候只需要少量的变量经过一次遍历就可以完成数据补全。

Completion Method, Device and Electronic Equipment of Time Series Data

The invention discloses a method, device and electronic equipment for completing time series data. The method includes: constructing data sets according to a set format, the data sets contain at least one series of data; inserting the time points of each series to be completed into the data sets; re-partitioning the data sets of inserting time points according to the series, and re-dividing the data sets of inserting time points into the same system. The column data is put into the same partition; the data in the partition is sorted to get the data list; the data in the partition is traversed to complete the data. In the framework of distributed computing, this method completes the missing time series data forward or backward. When completing the data, only a small number of variables need to be traversed once to complete the data completion.

全部详细技术资料下载

【技术实现步骤摘要】
时间序列数据的补全方法、装置及电子设备
本专利技术涉及计算机
，更具体地，涉及一种时间序列数据的补全方法、装置及电子设备。
技术介绍
随着计算机科学技术、互联网技术以及物联网技术的迅猛发展，出现信息量爆增的现象，从中找到有用信息的难度也日益增大，而在一台服务器中处理所有需要的数据也变得越来越困难，分布式计算框架的出现恰好解决了这个问题，使得数据可以分布不同的服务器中，并行的进行处理，如此解决了单台服务器的性能瓶颈。时间序列是指将同一指标的数值按其发生的时间先后顺序排列而成的数列，其大量存在于人类社会和自然界中，例如金融数据时间序列、交通时间序列以及物联网中传感器数据时间序列等。时间序列相似性能够寻找同类领域诸多相似的时间序列，从而为物理现象和社会现象的分析提供极有利的数据。目前的时间序列相似性方法主要针对没有缺失数据的情况，但是在实际场景的应用中，无法确保每个时刻都有数据。例如，在物联网的应用中，可能会存在多个设备，而每个设备的采样时间不能确保完全相同，如果以其中一个设备的采样时间为基准来分析其他设备，会导致时间序列有大量的缺失值。
技术实现思路
有鉴于此，本专利技术提出了一种时间序列数据的补全方法、装置及电子设备，以解决上述问题。第一方面，本专利技术实施例提供了一种时间序列数据的补全方法，该方法包括：将采集的数据按照设定的格式构建数据集，且这个数据集中至少包括一个系列数据；将每个系列需补全的时间点插入到这个数据集中；将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内；对各分区内的数据进行排序得到数据列表；分别对分区内的数据进行...

【技术保护点】
1.一种时间序列数据的补全方法，其特征在于，包括：将采集的数据按照设定格式构建数据集，所述数据集中至少包括一个系列的数据；将每个系列需补全的时间点插入所述数据集中；将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内；对分区内的数据进行排序得到数据列表；分别对分区内的数据进行遍历，补全数据。

【技术特征摘要】
1.一种时间序列数据的补全方法，其特征在于，包括：将采集的数据按照设定格式构建数据集，所述数据集中至少包括一个系列的数据；将每个系列需补全的时间点插入所述数据集中；将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内；对分区内的数据进行排序得到数据列表；分别对分区内的数据进行遍历，补全数据。2.根据权利要求1所述的方法，其特征在于，所述设定格式包括系列名称、采样时间、属性名称以及属性值。3.根据权利要求2所述的方法，其特性在于，所述将每个系列需补全的时间点插入所述数据集中，包括：将每个系列需补全的时间点的系列名称设置为对应的系列名称、属性名称设置为预设名称、属性值设置为空；将设置好的时间点插入到所述数据集中。4.根据权利要求1所述的方法，其特征在于，所述对分区内的数据进行排序，包括：对分区内的数据按照系列名称进行升序或降序排序；对排序后的数据分别按照采样时间进行升序或降序排序。5.根据权利要求4所述的方法，其特征在于，所述对排序后的数据分别按照采样时间进行升序或降序排序，包括：按照采样时间进行升序排序时，如果同一系列、同一采样时间对应有多个属性名称，则将属性名称为预设名称的数据排在最后；按照采样时间进行降序排序时，如果同一系列、同一采样时间对应有多个属性名称，则将属性名称为预设名称的数据排在最前。6.根据权利要求1所述的方法，其特征在于，所述分别对分区内的数据进行遍历，补全数据，包括：分别对分区内的数据进行递归操作，补全数据；或者分别对分区内的数据进行循环操作，补全数据。7.根据权利要求6所述的方法，其特征在于，所述分别对分区内的数据进行递归操作，补全数据，包括：输入一个设定格式的键值对和一个设定格式的系列名称；对所述数据列表、设定格式的键值对以及设定格式的系列名称进行递归操作，补全数据。8.根据权利要求7所述的方法，其特征在于，所述对所述数据列表、设定格式的键值对以及设定格式的系列名称进行递归操作，补全数据，包括：判断所述数据列表是否为空，如果所述数据列表为空则返回结果集，如果所述数据列表不为空则取出所述数据列表的第一行数据；判断所述数据列表的第一行数据的系列名称和所述设定格式的系列名称是否相同，如果相同，则根据所述数据列表的第一行数据的属性名称和属性值更新所述设定格式的键值对，如果不相同，则清空所述设定格式的键值对，并根据所述数据列表的第一行数据的系列名称更新所述设定格式的系列名称，根据所述数据列表的第一行数据的属性名称和属性值更新所述设定格式的键值对；判断所述数据列表的第一行数据的属性名称是否等于所述预设名...

【专利技术属性】
技术研发人员：傅思颖，游延筠，夏天松，柳林，唐红，
申请(专利权)人：深圳绿米联创科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人