一种数据存储方法及系统技术方案

技术编号:27656207 阅读:13 留言:0更新日期:2021-03-12 14:18
本发明专利技术提供一种数据存储方法及系统,所述方法包括获取电力计费数据;根据电力计费数据和预设数据处理逻辑,为电力计费数据建立索引表,并将电力计费数据存储到按照预设数据大小和预设集群机器数量已经配置好的分布式集群的各节点中;清洗电力计费数据,并将清洗过的电力计费数据生成结构化数据;将结构化数据映射为包括图的点和边的RDF格式并导入到所述图数据库中;分析图数据库,得到用户的风险预测结果;将用户的风险预测结果分别存储到hbase、mysql和nebula数据库中,并建立hbase、mysql和nebula数据库间的数据的外部索引表。通过本发明专利技术,解决了现有数据存储系统容易崩溃、数据延迟以及不利于数据挖掘的问题。

【技术实现步骤摘要】
一种数据存储方法及系统
本专利技术涉及数据处理
,尤其涉及一种数据存储方法及系统。
技术介绍
电力计费数据通常由电力收费系统自动采集用户每月的电费缴纳和用电情况等数据。其中,系统主要是记载普通用户每月的交费、欠费情况,以及用户每个月的详细电费,包括电价类别、附加费用和表计抄见等信息。目前的电力计费系统已经实行联网,用户可以十分方便查询到当前区域的当月用电和费用情况、历史费用情况等。智能化的电子系统给用户带来方便,同时大量的数据也给系统数据的应用管理与存储方式带来了挑战。而且,政府业务与整个社会的稳定、和谐密切相关,许多数据都属于关键业务信息,对业务连续性的要求非常高。另外,大量数据需要长期保存,存储归档需求非常大,对用户数据安全性、风险发现和可视化也有很高的要求。现有的电力计费数据通常是基于磁盘阵列和磁带库的,即由机房里面的统一储存介质进行集中存储用户的数据,通过某种交换机(例如光纤交换机或者IB交换机等)连接存储阵列和服务器主机等设备,形成一个专用的存储网络。这样的存储数据方法在日益增加的数据量与业务需求下,显得十分局限。备受诟病的数据存储系统容易崩溃、数据延迟等问题困扰着电力相关部门,且诸多电力数据按照传统方式存储利用,不利于电力相关部门通过数据挖掘出相关信息。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种数据存储方法及系统,用于解决现有数据存储系统容易崩溃、数据延迟以及不利于数据挖掘的问题。为解决上述技术问题,本专利技术实施例提出一种数据存储方法,所述方法包括:步骤S11、获取电力计费数据;步骤S12、根据所述电力计费数据和预设数据处理逻辑,为所述电力计费数据建立索引表,并将所述电力计费数据存储到按照预设数据大小和预设集群机器数量已经配置好的分布式集群的各节点中;步骤S13、清洗所述电力计费数据,并将清洗过的电力计费数据生成结构化数据;步骤S14、将所有所述结构化数据映射为资源描述框架RDF格式,所述RDF格式包括图的点和边;步骤S15、创建图数据库,将所述图的点和边批量导入到所述图数据库中;步骤S16、分析所述图数据库,得到用户的风险预测结果,所述用户的风险预测结果包括用户的风险得分和与所述用户对应的关系数据的风险得分;步骤S17、将所述用户的风险预测结果分别存储到hbase、mysql和nebula数据库中,并建立所述hbase、mysql和nebula数据库间的数据的外部索引表。进一步地,在步骤S13中清洗所述电力计费数据具体包括:利用数据仓库工具hive删除所述电力计费数据中包含空白字段的数据、无效数据和格式错误乱码数据。进一步地,在所述步骤S13中将清洗过的电力计费数据生成结构化数据包括:将文本结构的所述清洗过的电力计费数据输入训练好的信息抽取模型,输出结构化三元组信息的标签的位置;根据所述标签的位置和输入的所述文本结构的所述清洗过的电力计费数据,匹配出包括所述结构化三元组信息的结构化数据。进一步地,所述信息抽取模型包括bert-CRF模型或者MRC模型。进一步地,所述步骤S16具体包括:步骤S21、将与所述索引表对应的所述结构化数据和预设预测用户风险的业务指令输入到已训练好的机器学习模型;步骤S22、所述机器学习模型输出用户的风险属性,并将所述用户的风险属性分别输入关系图卷积网络GCN链路预测模型和第一全连接层;步骤S23、将图数据库的图数据输入所述GCN链路预测模型;步骤S24、所述GCN链路预测模型输出用户与所述用户对应的关系数据之间路径的预测得分,并将所述预测得分输入第一全连接层;步骤S25、经过所述第一全连接层和预测层对所述用户的风险属性和所述与所述用户对应的关系数据之间路径的预测得分进行运算,得到用户的风险得分以及与所述用户对应的关系数据的风险得分。进一步地,所述机器学习模型包括随机森林模型、归一化层和第二全连接层,所述GCN链路预测模型包括间隔设置的两个GCN层、两个激活层以及第三全连接层。本专利技术实施例提出一种数据存储系统,所述系统包括:获取单元,用于获取电力计费数据;索引建立单元,用于根据所述电力计费数据和预设数据处理逻辑,为所述电力计费数据建立索引表,并将所述电力计费数据存储到按照预设数据大小和预设集群机器数量已经配置好的分布式集群的各节点中;数据处理单元,用于清洗所述电力计费数据,并将清洗过的电力计费数据生成结构化数据;映射单元,用于将所有所述结构化数据映射为资源描述框架RDF格式,所述RDF格式包括图的点和边;创建单元,用于创建图数据库,将所述图的点和边批量导入到所述图数据库中;数据分析单元,用于分析所述图数据库,得到用户的风险预测结果,所述用户的风险预测结果包括用户的风险得分和与所述用户对应的关系数据的风险得分;存储索引单元,用于将所述用户的风险预测结果分别存储到hbase、mysql和nebula数据库中,并建立所述hbase、mysql和nebula数据库间的数据的外部索引表。进一步地,所述数据处理单元具体用于:将文本结构的所述清洗过的电力计费数据输入训练好的信息抽取模型,输出结构化三元组信息的标签的位置;根据所述标签的位置和输入的所述文本结构的所述清洗过的电力计费数据,匹配出包括所述结构化三元组信息的结构化数据。进一步地,所述数据分析单元具体用于:将与所述索引表对应的所述结构化数据和预设预测用户风险的业务指令输入到已训练好的机器学习模型;所述机器学习模型输出用户的风险属性,并将所述用户的风险属性分别输入关系图卷积网络GCN链路预测模型和第一全连接层;将图数据库的图数据输入所述GCN链路预测模型;所述GCN链路预测模型输出用户与所述用户对应的关系数据之间路径的预测得分,并将所述预测得分输入第一全连接层;经过所述第一全连接层和预测层对所述用户的风险属性和所述与所述用户对应的关系数据之间路径的预测得分进行运算,得到用户的风险得分以及与所述用户对应的关系数据的风险得分。进一步地,所述机器学习模型包括随机森林模型、归一化层和第二全连接层,所述GCN链路预测模型包括间隔设置的两个GCN层、两个激活层以及第三全连接层。实施本专利技术的实施例,具有如下有益效果:通过对采集的电力计费数据进行分布式存储,并且对数据清洗后形成结构化数据,并将所述结构化数据转换并导入图数据库,利用相关模型对图数据库中数据进行挖掘并存储到不同数据库,使得数据存储安全,多点查询速度快且可以可视化数据关系,并挖掘到用户数据的风险;解决了现有电力数据存储系统容易崩溃、数据查询延时以及数据查询不直观、不便于进行数据挖掘的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文档来自技高网...

【技术保护点】
1.一种数据存储方法,其特征在于,所述方法包括:/n步骤S11、获取电力计费数据;/n步骤S12、根据所述电力计费数据和预设数据处理逻辑,为所述电力计费数据建立索引表,并将所述电力计费数据存储到按照预设数据大小和预设集群机器数量已经配置好的分布式集群的各节点中;/n步骤S13、清洗所述电力计费数据,并将清洗过的电力计费数据生成结构化数据;/n步骤S14、将所有所述结构化数据映射为资源描述框架RDF格式,所述RDF格式包括图的点和边;/n步骤S15、创建图数据库,将所述图的点和边批量导入到所述图数据库中;/n步骤S16、分析所述图数据库,得到用户的风险预测结果,所述用户的风险预测结果包括用户的风险得分和与所述用户对应的关系数据的风险得分;/n步骤S17、将所述用户的风险预测结果分别存储到hbase、mysql和nebula数据库中,并建立所述hbase、mysql和nebula数据库间的数据的外部索引表。/n

【技术特征摘要】
1.一种数据存储方法,其特征在于,所述方法包括:
步骤S11、获取电力计费数据;
步骤S12、根据所述电力计费数据和预设数据处理逻辑,为所述电力计费数据建立索引表,并将所述电力计费数据存储到按照预设数据大小和预设集群机器数量已经配置好的分布式集群的各节点中;
步骤S13、清洗所述电力计费数据,并将清洗过的电力计费数据生成结构化数据;
步骤S14、将所有所述结构化数据映射为资源描述框架RDF格式,所述RDF格式包括图的点和边;
步骤S15、创建图数据库,将所述图的点和边批量导入到所述图数据库中;
步骤S16、分析所述图数据库,得到用户的风险预测结果,所述用户的风险预测结果包括用户的风险得分和与所述用户对应的关系数据的风险得分;
步骤S17、将所述用户的风险预测结果分别存储到hbase、mysql和nebula数据库中,并建立所述hbase、mysql和nebula数据库间的数据的外部索引表。


2.如权利要求1所述方法,其特征在于,在步骤S13中清洗所述电力计费数据具体包括:
利用数据仓库工具hive删除所述电力计费数据中包含空白字段的数据、无效数据和格式错误乱码数据。


3.如权利要求1所述方法,其特征在于,在所述步骤S13中将清洗过的电力计费数据生成结构化数据包括:
将文本结构的所述清洗过的电力计费数据输入训练好的信息抽取模型,输出结构化三元组信息的标签的位置;
根据所述标签的位置和输入的所述文本结构的所述清洗过的电力计费数据,匹配出包括所述结构化三元组信息的结构化数据。


4.如权利要求3所述方法,其特征在于,所述信息抽取模型包括bert-CRF模型或者MRC模型。


5.如权利要求1所述方法,其特征在于,所述步骤S16具体包括:
步骤S21、将与所述索引表对应的所述结构化数据和预设预测用户风险的业务指令输入到已训练好的机器学习模型;
步骤S22、所述机器学习模型输出用户的风险属性,并将所述用户的风险属性分别输入关系图卷积网络GCN链路预测模型和第一全连接层;
步骤S23、将图数据库的图数据输入所述GCN链路预测模型;
步骤S24、所述GCN链路预测模型输出用户与所述用户对应的关系数据之间路径的预测得分,并将所述预测得分输入第一全连接层;
步骤S25、经过所述第一全连接层和预测层对所述用户的风险属性和所述与所述用户对应的关系数据之间路径的预测得分进行运算,得到用户的风险得分以及与所述用户对应的关系数据的风险得分。

...

【专利技术属性】
技术研发人员:陈华锋李颖杰陈本权郑筠史纪孙涛董伟峰
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1