【技术实现步骤摘要】
一种电网文本数据分级分类方法及系统
[0001]本专利技术涉及一种电网文本数据分级分类方法及系统,属于机器学习识别处理
。
技术介绍
[0002]伴随对信息系统依赖性的增加,电网企业的数据量
、
数据的重要性日益增大,随之增大的还有数据泄漏风险
。
虽然目前国内外设备厂商已经基于不同用户需求开发出了数据防泄漏系统,也制定了初步的数据分类分级制度和管控策略,但是缺少针对电网企业的数据分类分级标准和管控策略制度
。
信息安全建设更多的是考虑硬件和软件的安全,电网企业现有的数据分级分类方法更多的是在公司层面对数据进行宏观的分类分级,业务部门对数据安全感知度不高
,
数据管控中心对数据敏感程度把握不够,数据防泄漏工作的效果有限
。
现有方法忽视了人员
、
数据
、
文档
、
服务
、
无形资产等重要对象
。
导致电网企业在实施数据安全工作的过程中普遍存在各种不足及问题,主要问题及不足如下:
[0003]缺乏对数据生命周期安全管控措施
。
电网企业数据量庞大,核心敏感数据与一般数据缺乏整理区分保护,核心敏感数据流转生命周期不清晰
。
[0004]数据防泄漏系统安全策略的制定没有电网企业数据分类分级标准参考,导致安全策略制定不够客观和充分
。
数据防泄漏系统本身并没有完整的对企业的数据进行调查和统计数 ...
【技术保护点】
【技术特征摘要】
1.
一种电网文本数据分级分类方法,其特征在于,包括以下步骤:收集电网文本数据并对收集的文本数据进行预处理,对预处理后的文本数据进行数据增强,通过增强后的文本数据构建文本数据训练集;构建电网文本数据分级分类模型框架,所述框架由
BERT
预训练语言模型
、
双向门控循环网络模型
、
卷积神经网络模型以及输出层构成,基于
BERT
预训练语言模型的预训练参数对文本数据训练集进行微调;将微调后的文本数据训练集输入
BERT
预训练语言模型中得到文本数据训练集的语义信息以及文本数据训练集中变量的概率分布,将文本数据训练集的语义信息输入双向门控循环网络模型中,双向门控循环网络模型根据输入数据得到文本数据训练集的全局语义特征,再将文本数据训练集的全局语义特征输入卷积神经网络模型中得到文本数据训练集的局部语义特征,局部语义特征经过输出层得到电网文本数据训练分级分类结果;上述电网文本数据分级分类模型框架预设训练轮数,每轮训练都会对收集的电网文本数据重新进行预处理以及数据增强,并根据上一轮训练中
BERT
预训练语言模型输出的文本数据训练集中变量的概率分布更新下一轮训练中各模型的参数,当训练轮数结束后得到训练完成的电网文本数据分级分类模型框架,通过该框架对电网文本数据进行分级分类
。2.
根据权利要求1所述的一种电网文本数据分级分类方法,其特征在于,所述文本数据预处理包括数据清洗
、
分词以及去除停用词;所述数据清洗步骤基于正则表达式构建文本数据清洗规则,通过文本数据清洗规则删除过滤冗余信息,同时需要避免删除重要信息导致语义损失;所述分词步骤为将连续的文本数据按照特定的规则切分成为多个具有语义单元的词语序列;所述去除停用词步骤通过构建停用词表,基于停用词表通过字符匹配方式过滤文本数据中的无用词汇
。3.
根据权利要求1所述的一种电网文本数据分级分类方法,其特征在于,所述数据增强用于对原始文本进行变换和扩展,增加训练数据的多样性,具体为:通过同义词替换
、
随机插入
、
随机删除
、
随机交换以及文本重组方法对预处理后的文本数据进行增强
。4.
根据权利要求1所述的一种电网文本数据分级分类方法,其特征在于,所述
BERT
预训练语言模型由掩码语言模型与邻句预测模型构成;所述掩码语言模型用于随机抹去数据集中任一句子中的一个或几个词,并根据该句子中剩余的词预测被抹去的词;所述邻句预测模型用于根据给定数据集中的随机两个句子,预测两个句子是否为相邻句子;通过上述两个模型得到文本数据训练集的语义信息以及文本数据训练集中变量的概率分布
。5.
根据权利要求1所述的一种电网文本数据分级分类方法,其特征在于,所述双向门控循环网络模型由两个独立的门控循环单元构成,分别为正向门控循环单元与反向门控循环单元,在每个时刻下两个单元通过正反两个方向对输入数据进行学习,在
t
时刻下双向门控循环网络模型的输出值由正向门控循环单元与反向门控循环单元共同决定,计算公式如
...
【专利技术属性】
技术研发人员:陈为标,林育樟,林露馨,杨小娟,郑飘飘,何致远,江欣霖,陈奋增,
申请(专利权)人:国网福建省电力有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。