一种可变列数据存储与计算方法技术

技术编号：40601332 阅读：6 留言：0更新日期：2024-03-12 22:05

本发明专利技术涉及数据处理技术领域，公开了一种可变列数据存储与计算方法，包括如下步骤：采集新能源设备的测点数据，对测点数据进行序列化处理并存储在HIVE表的data字段中，通过反序列化方法构建用户自定义数据表生成函数，并结合SQL方式直接解析序列化处理后的测点数据的测点值并进行查询，本发明专利技术通过针对设备测点数据的序列化方法将测点数据存储至HIVE中的data字段，并基于反序列化方法构建自定义数据表生成函数，在数据查询时以SQL方式直接解析测点值，此举解决了测点数据的不一致及变化问题带来的HIVE表数据膨胀，适用于新能源业务场景下的原始数据采集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，特别是涉及一种可变列数据存储与计算方法。

技术介绍

1、近年来，大数据技术和人工智能(artificial intelligent，ai)技术不断取得新的突破，已经广泛应用到各行各业中。在新能源行业中，尤其是发电企业，大数据和ai技术催化出了智能巡检、故障预警、智能运维、无人值守等多种业务场景，进一步提高了生产效率，推动了新一轮的产业升级和变革。以上无论哪种场景，都需要海量可靠的数据作为基础支撑。

2、在新能源发电行业中，设备测点数据是需要采集的主要数据。与其他行业不同的是，设备测点数据具备以下特征：(1)单设备测点数量大；(2)不同类型设备及同种类型不同型号的设备测点不同；(3)在生产过程中，设备采集测点会发生变更。

3、数据库是具备数据存储及数据查询分析处理能力的一类系统软件。在超大规模体量数据存储分析场景中，hadoop分布式文件系统(hdfs，hadoop distributed filesystem)是当下最流行最可靠的数据存储引擎，hive(分布式数据仓库系统)及spark sql(结构化查询语言，structured query language)是基于hdfs提供的类sql的分布式计算框架。如果以设备测点作为属性列，将所有设备数据存储在一张数据表中，由于设备测点的不一致及可变的客观情况，会引发整体数据表稀疏、数据列数上千、极难运维等问题。如果将设备数据按照类型或者设备进行存储，则只会减轻数据表的稀疏程度，但同时也带来了数据表个数膨胀的问题，同样不是很好的解决方案。</p>

4、现有技术公开了一种测点数据处理方法、装置、存储介质与电子设备，涉及处理
，包括：从新能源设备的多种类型的测点数据中，确定出异常数据；在新能源设备的多种类型的测点数据满足至少一者条件的情况下，将异常数据以及与新能源设备相关的关联数据进行存储：多种类型的测点数据的覆盖率小于预设覆盖率、多种类型的测点数据的完整率小于预设完整率、多种类型的测点数据的有效率小于预设有效率、多种类型的测点数据的及时率小于预设及时率；响应于用户的查询操作，显示异常数据与关联数据。该现有技术存在设备测点数据存储中测点不一致，测点变化带来的数据字段膨胀的问题。

技术实现思路

1、本专利技术的目的是：提供一种可变列数据存储与计算方法，以解决设备测点数据存储中测点不一致，测点变化带来的数据字段膨胀的问题。

2、为了实现上述目的，本专利技术提供了一种可变列数据存储与计算方法，包括如下步骤：采集新能源设备的测点数据，对测点数据进行序列化处理并存储在hive表的data字段中，通过反序列化方法构建用户自定义数据表生成函数，并结合sql方式直接解析序列化处理后的测点数据的测点值并进行查询。

3、优选的，通过采集系统采集所述新能源设备的测点数据，所述采集系统通过flink计算框架构建。

4、优选的，所述data字段中存储的序列化处理后的测点数据为二进制字节流形式。

5、优选的，所述data字段中存储的序列化处理后的测点数据包含每一个测点数据的具体的字段名称、字段值以及字段类型。

6、优选的，每经过预设时间将存储在hive表的data字段中的序列化处理后的测点数据写入分布式文件系统的数据块中。

7、优选的，写入分布式文件系统的数据块的时间频率配置为一小时一次到一分钟一次之间。

8、优选的，所述分布式文件系统的数据块可被所述hive表识别并加载。

9、优选的，所述通过反序列化方法构建用户自定义数据表生成函数的具体过程为通过集成hive的genericudtf抽象类构建用户自定义数据表生成函数进行解析。

10、优选的，所述新能源设备的测点数据包含设备名称、数据采集时间、数据测点协议信息、测点数据值信息和测点数据类型。

11、本专利技术还提供了一种计算机设备，所述设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

12、存储器，用于存放计算机程序；

13、处理器，用于执行存储器上所存放的程序时，实现上文中任一项所述的一种可变列数据存储与计算方法的步骤。

14、与现有技术相比，本专利技术的有益效果在于：本专利技术通过针对设备测点数据的序列化方法将测点数据存储至hive中的data字段，并基于反序列化方法构建自定义数据表生成函数，在数据查询时以sql方式直接解析测点值，此举解决了测点数据的不一致及变化问题带来的hive表数据膨胀，适用于新能源业务场景下的原始数据采集。

本文档来自技高网...

【技术保护点】

1.一种可变列数据存储与计算方法，其特征在于，包括如下步骤：采集新能源设备的测点数据，对测点数据进行序列化处理并存储在HIVE表的data字段中，通过反序列化方法构建用户自定义数据表生成函数，并结合SQL方式直接解析序列化处理后的测点数据的测点值并进行查询。

2.根据权利要求1所述的一种可变列数据存储与计算方法，其特征在于，通过采集系统采集所述新能源设备的测点数据，所述采集系统通过Flink计算框架构建。

3.根据权利要求1所述的一种可变列数据存储与计算方法，其特征在于，所述data字段中存储的序列化处理后的测点数据为二进制字节流形式。

4.根据权利要求3所述的一种可变列数据存储与计算方法，其特征在于，所述data字段中存储的序列化处理后的测点数据包含每一个测点数据的具体的字段名称、字段值以及字段类型。

5.根据权利要求1所述的一种可变列数据存储与计算方法，其特征在于，每经过预设时间将存储在HIVE表的data字段中的序列化处理后的测点数据写入分布式文件系统的数据块中。

6.根据权利要求5所述的一种可变列数据存储与计算方

7.根据权利要求5所述的一种可变列数据存储与计算方法，其特征在于，所述分布式文件系统的数据块可被所述HIVE表识别并加载。

8.根据权利要求1所述的一种可变列数据存储与计算方法，其特征在于，所述通过反序列化方法构建用户自定义数据表生成函数的具体过程为通过集成hive的GenericUDTF抽象类构建用户自定义数据表生成函数进行解析。

9.根据权利要求1所述的一种可变列数据存储与计算方法，其特征在于，所述新能源设备的测点数据包含设备名称、数据采集时间、数据测点协议信息、测点数据值信息和测点数据类型。

10.一种计算机设备，其特征在于，所述设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

...

【技术特征摘要】

1.一种可变列数据存储与计算方法，其特征在于，包括如下步骤：采集新能源设备的测点数据，对测点数据进行序列化处理并存储在hive表的data字段中，通过反序列化方法构建用户自定义数据表生成函数，并结合sql方式直接解析序列化处理后的测点数据的测点值并进行查询。

2.根据权利要求1所述的一种可变列数据存储与计算方法，其特征在于，通过采集系统采集所述新能源设备的测点数据，所述采集系统通过flink计算框架构建。

3.根据权利要求1所述的一种可变列数据存储与计算方法，其特征在于，所述data字段中存储的序列化处理后的测点数据为二进制字节流形式。

5.根据权利要求1所述的一种可变列数据存储与计算方法，其特征在于，每经过预设时间将存储在hive表的data字段中的序列化处理...

【专利技术属性】
技术研发人员：邵科伟，李恒，李卫新，阮士家，
申请(专利权)人：华润电力技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人