变电站非结构化数据的处理方法技术

技术编号:11829124 阅读:72 留言:0更新日期:2015-08-05 12:36
本发明专利技术提供一种变电站非结构化数据的处理方法,包括:获取变电站设备的非结构化数据、所述非结构化数据的附加信息和加工数据;根据预设的表结构将所述非结构化数据、附加信息和加工数据入库;其中,所述表结构的行健包括与所述类型对应的类型掩码、产生时间、数据来源和与所述数据质量对应的质量码,所述表结构的列族包括存储所述非结构化数据的原始数据族、存储所述附加信息的数据描述族和存储所述加工数据的加工数据族;在接收到数据查询请求时,根据所述数据查询请求和所述表结构生成查询对象,根据所述查询对象获得查询结果。本发明专利技术的变电站非结构化数据的处理方法,其数据访问处理的速度快,并且便于数据迁移。

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别是涉及一种变电站非结构化数据的处理的方法。
技术介绍
为满足社会日益增长的用电需求,电网企业不断壮大,变电设备成倍增长,变电站设备运维管理利用集中采集、智能分析、智能控制、智能展示等技术实现变电站内运行监控、设备运维管理、环境管理等功能,为变电站运行人员、管理人员、检修人员提供“一站式”的决策支持服务。变电站设备运维管理是一个综合的监控管理系统,其采集的信息多而全,其中不但包含传统结构化的数据,如状态监测数据等,而且包含非结构化数据,比如录波、视频等,这类数据的特点是无法用统一的结构来表示,通常以文件的形式存放。为了对其进行统一的管理,在传统关系库中对其的处理通常以压缩块的方式存放,所以对此类数据的存取需要进行压缩和解压,进而造成在传统关系库中对此类数据的处理和访问的功能局限访问效率低下。由于非结构化数据的容量相较前者来说更大,随着时间推移,所占用的磁盘空间将会变得非常庞大,可扩展性也是亟需解决的问题。采用商业库有一些应对此类问题的折衷方案,例如存储近几年的数据,更早的数据导出以文件形式存放等。此类方式,对于数据做长周期的、复杂的统计分析来说,需要进行备份数据的重新载入,数据迀移代价比较大。
技术实现思路
基于此,本专利技术提供一种,其数据访问处理的速度快,并且便于数据迀移。一种,包括如下步骤:获取变电站设备的非结构化数据、所述非结构化数据的附加信息和加工数据;所述附加信息包括所述非结构化数据的类型、产生时间、数据来源和数据质量;根据预设的表结构将所述非结构化数据、附加信息和加工数据入库;其中,所述表结构的行健包括与所述类型对应的类型掩码、产生时间、数据来源和与所述数据质量对应的质量码,所述表结构的列族包括存储所述非结构化数据的原始数据族、存储所述附加信息的数据描述族和存储所述加工数据的加工数据族;在接收到数据查询请求时,根据所述数据查询请求查询所述表结构并获得查询对象,根据所述查询对象获得查询结果。本专利技术的,表结构的行健包括类型掩码、产生时间、数据来源和质量码,列族包括原始数据族、数据描述族和加工数据族,因此在数据格式定义阶段有效的将原始数据、描述数据进行了数据模式的设计,将非结构化数据进行统一的管理并纳入同一个处理框架,克服了传统技术中采用文件系统存储处理非结构化数据在可扩展性、统一管理性方面的不足。该方法具备可扩展性,数据规模理论上无限制,可以存储电网运行产生的长周期非结构化数据,其数据访问处理的速度快,并且便于数据迀移。【附图说明】图1为本专利技术在一实施例中的流程示意图。图2为行健的示意图。图3为并行计算框架的示意图。【具体实施方式】下面结合实施例及附图对本专利技术作进一步详细说明,但本专利技术的实施方式不限于此。如图1所示,是本专利技术一种的流程示意图,包括如下步骤:S11、获取变电站设备的非结构化数据、所述非结构化数据的附加信息和加工数据;所述附加信息包括所述非结构化数据的类型、产生时间、数据来源和数据质量;S12、根据预设的表结构将所述非结构化数据、附加信息和加工数据入库;其中,所述表结构的行健包括与所述类型对应的类型掩码、产生时间、数据来源和与所述数据质量对应的质量码,所述表结构的列族包括存储所述非结构化数据的原始数据族、存储所述附加信息的数据描述族和存储所述加工数据的加工数据族;S13、在接收到数据查询请求时,根据所述数据查询请求查询所述表结构并获得查询对象,根据所述查询对象获得查询结果;本实施例的中设计的表结构,其行健包括类型掩码、产生时间、数据来源和质量码,其列族包括原始数据族、数据描述族和加工数据族,本实施例的方法在数据格式定义阶段有效的将原始数据、描述数据进行了数据模式的设计,将非结构化数据进行统一的管理并纳入同一个处理框架,克服了传统技术中采用文件系统存储处理非结构化数据在可扩展性、统一管理性方面的不足。该方法具备可扩展性,数据规模理论上无限制,可以存储电网运行产生的长周期非结构化数据,其数据访问处理的速度快,并且便于数据迀移。对于步骤S11、获取变电站设备的非结构化数据、所述非结构化数据的附加信息和加工数据;所述附加信息包括所述非结构化数据的类型、产生时间、数据来源和数据质量;非结构化数据是指变电站设备中产生的包括日志数据、告警数据、录波数据、音频数据、视频数据等原始数据,附加信息是指该变电站设备在产生非结构化数据时附加的数据,加工数据是指根据不同用户设定的数据处理方法对非结构化数据进行处理后得到的二次加工数据;其中,非结构化数据及其附加信息是由变电站设备产生,而加工数据是在对非结构化数据及其附加信息进行一定的处理上产生的,在数据初始阶段不一定产生有加工数据。对于步骤S12、根据预设的表结构将所述非结构化数据、附加信息和加工数据入库;其中,所述表结构的行健包括与所述类型对应的类型掩码、产生时间、数据来源和与所述数据质量对应的质量码,所述表结构的列族包括存储所述非结构化数据的原始数据族、存储所述附加信息的数据描述族和存储所述加工数据的加工数据族;为了对非结构化数据进行有效集中管理,需要将其进行统一的存储模式设计;HBase中对于数据形态没有严格的定义,数据记录可能包含不同的列、不确定的大小。存储数据使用四维坐标系统:行健、列族、列限定符和时间版本。只有行键是一种从行的方向有效筛选数据集提高命中准确率和查询效率的元素,对其设计基于非结构数据预期的访问模式来建模,因此本实施例根据非结构化数据的特点对行键进行特殊设计。非结构化数据的类型,可以为巡维数据中的日志数据、告警数据、录波数据、音频数据、视频数据等;在表结构的行健中,可采用预设的标识作为类型掩码字段值;非结构化数据的产生时间,可为电力系统产生此非结构化数据的时间戳,该时间一般由产生该数据的设备附加在数据上;在表结构的行健中,存储到库中这一字段时可采用UNIX时间戳;非结构化数据的数据来源,可为标识此数据的来源,最低到设备级别,其中可包含三个子字段:区域、厂站或设备;在表结构的行健中,可采用预设的标识作为数据来源字段值;非结构化数据的数据质量,可从数据的合法性(包括好、无效、未定义、可疑)、故障、旧数据、操作员闭锁等方面来描述数据的质量,在表结构的行健中,可采用掩码的数据结构来定义质量码,用预设的标识作为数据质量字段值。在列的设计上,采用三个列族:原始数据族、数据描述族和加工数据族;同一列族的数据在物理上存储在同一个存储区域下;此列族的设计考虑将来针对非结构化数据的预期处理场景。原始数据族存储非结构化数据的本体内容,按照字节流的方式存储。此列族为非结构化数据原始内容,作为数据的导出及自定义数据分析挖掘方法的应用的输入。该列被单独划分为一列族,是因为非结构化数据一般数据容量较大,对于多数查询场合用户一般更关心加工出来的二次熟数据和其描述数据;而本体内容则更多被数据分析挖掘用户使用。如果原始数据列与其他列划分为一个列族,由于列族内的数据物理上在一起,对于只查询描述数据和熟数据场合,效率将非常低下,将其独立出来有助于提高查询和分析的效率。数据描述族中,则是对此非结构化数据的附加信息进行记录,包括非结构化数据内容的格式描述文件,数据的大小等。即使相同类型的非结构化数据,其内容的格式也是不同的,对本文档来自技高网...

【技术保护点】
一种变电站非结构化数据的处理方法,其特征在于,包括如下步骤:获取变电站设备的非结构化数据、所述非结构化数据的附加信息和加工数据;所述附加信息包括所述非结构化数据的类型、产生时间、数据来源和数据质量;根据预设的表结构将所述非结构化数据、附加信息和加工数据入库;其中,所述表结构的行健包括与所述类型对应的类型掩码、产生时间、数据来源和与所述数据质量对应的质量码,所述表结构的列族包括存储所述非结构化数据的原始数据族、存储所述附加信息的数据描述族和存储所述加工数据的加工数据族;在接收到数据查询请求时,根据所述数据查询请求和所述表结构生成查询对象,根据所述查询对象获得查询结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈浩敏李鹏郭晓斌许爱东陈波姚浩蒋愈勇张利强易洋郭庆武
申请(专利权)人:中国南方电网有限责任公司电网技术研究中心南方电网科学研究院有限责任公司北京四方继保自动化股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1