电力敏感数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38616094 阅读:15 留言:0更新日期:2023-08-26 23:43
本发明专利技术实施例涉及一种电力敏感数据处理方法、装置、电子设备及存储介质,包括:采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注;基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量;基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型;基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。由此,兼顾全局样本的整体特征,改善传统分类方法对不属于其分类范围的数据分类能力差的问题,提升了电力系统敏感数据分级分类结果的准确性和可靠性。和可靠性。和可靠性。

【技术实现步骤摘要】
电力敏感数据处理方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及电力数据处理领域,尤其涉及一种电力敏感数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着电力行业的发展及网络通信的复杂化,电网业务系统的使用也越来越多样化,相关行业的数据量大大增长,电网企业已经步入了数据化的新时代。信息化伴随而来的就是企业存在敏感信息泄露的风险,特别是企业电力习惯、客户信息以及企业隐私行为等。一旦这些敏感数据发生泄漏,并被分析和利用,将对用户隐私以及电网安全形成极大的威胁,同时海量数据也增加了信息保护的难度。为了在业务需求和风险之间找到平衡,需要对不同价值和属性的数据进行分级,根据分级的结果采取不同的处置方法,这样可以在保障运行平稳的同时降低数据泄露的风险。
[0003]传统的电力敏感数据分级方法严重依赖于人工,受主观因素影响较大,难以做到精准快速的自动化分类,因此考虑使用基于机器学习的自动化分类分级方法。而以SVM为代表的有监督方法虽然可以在大量标注数据训练的基础上得到较为准确的分类模型,但是由于电力数据特征维度比较多,存在大量冗余信息,会使得模型的学习产生偏移,影响分类结果,同时也会增加算法的时间和空间复杂度,降低性能。同时,由于电力数据包含多种类型,这进一步增加了方法的使用难度。

技术实现思路

[0004]鉴于此,为解决上述技术问题或部分技术问题,本专利技术实施例提供一种电力敏感数据处理方法、装置、电子设备及存储介质。
[0005]第一方面,本专利技术实施例提供一种一种电力敏感数据处理方法,包括:采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注,其中,敏感性标注的内容至少包括敏感字段和敏感数值;基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量,其中,所述数据类型为字符型数据和数值型数据;基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型;基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。
[0006]在一个可能的实施方式中,所述方法还包括:采用多项式核函数和高斯核函数预先构建混合核函数;采用双线性

网格搜索方法对所述混合核函数进行参数优化,得到优化后的混合核函数;
基于所述优化后的混合核函数对所述归一化特征向量进行核空间投影;基于核空间投影后的归一化特征向量对所述预先改进的SVM算法进行训练。
[0007]在一个可能的实施方式中,所述方法还包括:计算核空间投影后的归一化特征向量与预设向量之间的向量夹角,得到样本敏感数据与全部数据类别的关联系数,其中,所述预设向量为全部数据类别与信息样本的关联度,所述向量夹角表示向量之间的关联系数;基于样本敏感数据与全部数据类别的关联系数通过预设规则进行循环迭代优化,得到符合预设关联程度的目标特征向量和基于所述目标特征向量训练完成的电力敏感数据分类模型。
[0008]在一个可能的实施方式中,所述方法还包括:基于预先设置的敏感性标注规则对所述样本敏感数据进行自动敏感性标注,标注内容至少包括敏感字段、敏感数值;对自动敏感性标注后的内容进行审核,优化敏感性标注内容。
[0009]在一个可能的实施方式中,所述方法还包括:对优化敏感性标注内容后的样本敏感数据进行数据清洗操作,得到目标样本敏感数据并识别所述目标样本敏感数据的数据类型;若所述目标样本敏感数据的数据类型为字符型数据,则提取所述字符型数据的多个统计特征;若所述目标样本敏感数据的数据类型为数值型数据,则对数值型数据进行编码,得到编码特征;基于所述多个统计特征和编码特征确定所述目标样本敏感数据对应的归一化特征向量。
[0010]在一个可能的实施方式中,所述方法还包括:基于预设筛选规则对所述多个统计特征和编码特征进行特征筛选,得到多个特征项,所述特征项在某一数据类别出现的频率作为该特征项与对应类别的关联关系;基于预设权重分配规则以及每个特征项对应的频率为每个特征项分配对应权重,计算每一特征项在数据类别中的方差,完成特征降维;对降维后的特征进行归一化处理,得到归一化特征向量。
[0011]在一个可能的实施方式中,所述方法还包括:基于所述敏感性预测结果,对所述业务数据进行分类管理和保护。
[0012]第二方面,本专利技术实施例提供一种电力敏感数据处理装置,包括:采集标注模块,用于采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注,其中,敏感性标注的内容至少包括敏感字段和敏感数值;特征构建模块,用于基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量,其中,所述数据类型为字符型数据和数值型数据;模型训练模块,用于基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型;数据分类模块,用于基于所述电力敏感数据分类模型对电力系统中产生的业务数
据进行分类,输出敏感性预测结果。
[0013]可选的,所述模型训练模块,还用于采用多项式核函数和高斯核函数预先构建混合核函数;采用双线性

网格搜索方法对所述混合核函数进行参数优化,得到优化后的混合核函数;基于所述优化后的混合核函数对所述归一化特征向量进行核空间投影;基于核空间投影后的归一化特征向量对所述预先改进的支持向量机分类算法进行训练。
[0014]可选的,所述模型训练模块,还用于计算核空间投影后的归一化特征向量与预设向量之间的向量夹角,得到样本敏感数据与全部数据类别的关联系数,其中,所述预设向量为全部数据类别与信息样本的关联度,所述向量夹角表示向量之间的关联系数;基于样本敏感数据与全部数据类别的关联系数通过预设规则进行循环迭代优化,得到符合预设关联程度的目标特征向量和基于所述目标特征向量训练完成的电力敏感数据分类模型。
[0015]可选的,所述采集标注模块,还用于基于预先设置的敏感性标注规则对所述样本敏感数据进行自动敏感性标注,标注内容至少包括敏感字段、敏感数值;对自动敏感性标注后的内容进行审核,优化敏感性标注内容。
[0016]可选的,所述特征构建模块,还用于对优化敏感性标注内容后的样本敏感数据进行数据清洗操作,得到目标样本敏感数据并识别所述目标样本敏感数据的数据类型;若所述目标样本敏感数据的数据类型为字符型数据,则提取所述字符型数据的多个统计特征;若所述目标样本敏感数据的数据类型为数值型数据,则对数值型数据进行编码,得到编码特征;基于所述多个统计特征和编码特征确定所述目标样本敏感数据对应的归一化特征向量。
[0017]可选的,所述特征构建模块,还用于基于预设筛选规则对所述多个统计特征和编码特征进行特征筛选,得到多个特征项,所述特征项在某一数据类别出现的频率作为该特征项与对应类别的关联关系;基于预设权重分配规则以及每个特征项对应的频率为每个特征项分配对应权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电力敏感数据处理方法,其特征在于,包括:采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注,其中,敏感性标注的内容至少包括敏感字段和敏感数值;基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量,其中,所述数据类型为字符型数据和数值型数据;基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型;基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型,包括:采用多项式核函数和高斯核函数预先构建混合核函数;采用双线性

网格搜索方法对所述混合核函数进行参数优化,得到优化后的混合核函数;基于所述优化后的混合核函数对所述归一化特征向量进行核空间投影;基于核空间投影后的归一化特征向量对所述预先改进的支持向量机分类算法进行训练。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:计算核空间投影后的归一化特征向量与预设向量之间的向量夹角,得到样本敏感数据与全部数据类别的关联系数,其中,所述预设向量为全部数据类别与信息样本的关联度,所述向量夹角表示向量之间的关联系数;基于样本敏感数据与全部数据类别的关联系数通过预设规则进行循环迭代优化,得到符合预设关联程度的目标特征向量和基于所述目标特征向量训练完成的电力敏感数据分类模型。4.根据权利要求1所述的方法,其特征在于,所述采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注,包括:基于预先设置的敏感性标注规则对所述样本敏感数据进行自动敏感性标注,标注内容至少包括敏感字段、敏感数值;对自动敏感性标注后的内容进行审核,优化敏感性标注内容。5.根据权利要求4所述的方法,其特征在于,所述基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量,包括:对优化敏感性标注内容后的样本敏感数据进行数据清洗操作,得到目标样本敏感数据并识别所述目标样本敏感数据的数据类型;若所述目标样本敏感数据的数据类型为字符型数据,则提取所述字符型数据的多个统计特征;若所述目标样本敏感数据的数据类型为数值型数据,则对数值型数据进行编码,得到编码特征;
基于所述多个统计特征和编码特征确定所述目标样本敏感数据对应的归一化特征向量。6.根据权利要求5所述的方法,其特征在于,所述基于所述多个统计特征和编码特征确定所述目标样本敏感数据对应的归一化特征向量,包括:基于预设筛选规则对所述多个统计特征和编码特征进行特征筛选,得到多个特征项,所述特征项在某一数据类别出现的频率作为该特征项与对应类别的关联关系;基于预设权重分配规则以及每个特征项对应的频率为每个特征项分配对应权重,计算每一特征项在数据类别中的方差,完成特征降维;对降维后的特征进行归一化处理,得到归一化特征向量。7.根据权利要求1所述的方法,其特征在于,所述基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果之后,包括:基于所述敏感性预测结果,对所述业务数据进行分类管理和保护。8.一种电力敏感数据处理装置,其特征在于,包括:采集标注模块,用于采集电力系统运...

【专利技术属性】
技术研发人员:石聪聪翟雨佳黄秀丽许道强刘圣龙邓君华江伊雯费稼轩于鹏飞
申请(专利权)人:国家电网有限公司大数据中心国网江苏省电力有限公司营销服务中心国网江苏省电力有限公司国家电网有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1