一种电网文本数据分级分类方法及系统技术方案

技术编号:39816153 阅读:12 留言:0更新日期:2023-12-22 19:34
本发明专利技术涉及一种电网文本数据分级分类方法,包括以下步骤:收集电网文本数据并对文本数据进行预处理以及增强处理,将增加后的文本数据构建为文本数据训练集;构建电网文本数据分级分类模型框架,将文本数据训练集输入框架得到训练集中变量的概率分布;通过变量的概率分布结果对电网文本数据分级分类模型框架的参数进行更新并再次进行训练;经过预设轮次的训练后得到最终电网文本数据分级分类模型框架,通过该框架对电网文本数据进行分级分类

【技术实现步骤摘要】
一种电网文本数据分级分类方法及系统


[0001]本专利技术涉及一种电网文本数据分级分类方法及系统,属于机器学习识别处理



技术介绍

[0002]伴随对信息系统依赖性的增加,电网企业的数据量

数据的重要性日益增大,随之增大的还有数据泄漏风险

虽然目前国内外设备厂商已经基于不同用户需求开发出了数据防泄漏系统,也制定了初步的数据分类分级制度和管控策略,但是缺少针对电网企业的数据分类分级标准和管控策略制度

信息安全建设更多的是考虑硬件和软件的安全,电网企业现有的数据分级分类方法更多的是在公司层面对数据进行宏观的分类分级,业务部门对数据安全感知度不高
,
数据管控中心对数据敏感程度把握不够,数据防泄漏工作的效果有限

现有方法忽视了人员

数据

文档

服务

无形资产等重要对象

导致电网企业在实施数据安全工作的过程中普遍存在各种不足及问题,主要问题及不足如下:
[0003]缺乏对数据生命周期安全管控措施

电网企业数据量庞大,核心敏感数据与一般数据缺乏整理区分保护,核心敏感数据流转生命周期不清晰

[0004]数据防泄漏系统安全策略的制定没有电网企业数据分类分级标准参考,导致安全策略制定不够客观和充分

数据防泄漏系统本身并没有完整的对企业的数据进行调查和统计数量,识别出企业需要防护的敏感数据
,
数据防泄漏系统安全策略的制定依靠的是系统的内定策略和技术人员的主观意识决定,缺乏规范性

[0005]信息资产识别不充分;由于电网企业缺少判断数据分级分类标准也并没有专门的统计企业数据量,数据防泄漏系统在制定安全策略时也就无法精确识别数据资产是否需要保护,该采取什么样防护措施

[0006]伴随着深度学习的快速发展,该技术为文本分类带来了新的突破

目前,常见的文本分类算法为机器学习和深度学习方法

机器学习方法通过人工选择特征和分类器实现分类,常见的经典分类算法有:朴素贝叶斯分类器

支持向量机
(SVM:Support VectorMachine)、K
最近邻算法等

传统的机器学习分类算法,虽然取得了一定的分类效果,但仍存在一定的局限性,如:文本特征表达能力弱,耗费人力成本,效率低等

随着深度学习技术的兴起,深度学习方法已被证明优于机器学习方法,并在计算机视觉和自然语言处理领域取得了重要成果

基于深度学习的文本分类方法避免了人工设计规则,节省了人力成本,并能利用神经网络结构自动提取文本信息,提高了文本分类的效率和准确率

[0007]伴随着深度学习的快速发展,该技术为文本分类带来了新的突破

目前,常见的文本分类算法为机器学习和深度学习方法

机器学习方法通过人工选择特征和分类器实现分类,常见的经典分类算法有:朴素贝叶斯分类器

支持向量机
(SVM:Support VectorMachine)、K
最近邻算法等

传统的机器学习分类算法,虽然取得了一定的分类效果,但仍存在一定的局限性,如:文本特征表达能力弱,耗费人力成本,效率低等

随着深度学习技术的兴起,深度学习方法已被证明优于机器学习方法,并在计算机视觉和自然语言处理
领域取得了重要成果

基于深度学习的文本分类方法避免了人工设计规则,节省了人力成本,并能利用神经网络结构自动提取文本信息,提高了文本分类的效率和准确率

[0008]近年来,在自然语言处理领域,深度学习技术和神经网络模型发展迅速

卷积神经网络
(CNN:Convolutional Neural Networks)、
循环神经网络
(RNN:RecurrentNeuralNetwork)
和注意力机制
(Attention)
是深度学习中主要的文本分类模型
。CNN
利用多层感知结构捕获文本显著特征,显著特征的捕获取决于卷积核的大小,而
CNN
忽略了局部信息之间的依赖关系,该问题对文本分类的准确性有重要的影响


CNN
相比,
RNN
的输出值依赖于当前时间单元的输入和前一个时间单元的输出,可以捕获文本上下文信息

然而,
RNN
在训练过程中存在梯度消失和爆炸的问题

因此,研究人员提出了改进的
RNN
模型,包括长短期记忆网络
(LSTM:Long Short

Term Memory)
和门递归单元网络
(GRU:GatingRecurrent Unit)

LSTM

RNN
的特殊类型
,GRU

LSTM
的改进版本,结构更加优化简单,两者可通过选择保存信息克服梯度消失和爆炸的问题,但仍存在长期依赖的问题

针对长期依赖问题,研究者提出双向长短期记忆网络
(BiLSTM:BidirectionalLong Short

Term Memory)
和双向门递归单元网络
(BiGRU:Bidirectional Gating Recurrent Unit)
神经网络结构

其中
BiLSTM
由两层
LSTM
神经网络构成,可以从文本序列的前向和后向同时获取上下文依赖,更好地提取文本的深层次特征,从而提高文本分类效果
。Attention
最初应用于计算机视觉领域,对图像分类有很好的提升效果,后来有研究者将其引入自然语言处理领域,用来计算不同特征在序列中的重要程度,区分文本的显著特征和不显著特征,从而提升文本分类效果

[0009]然而上述模型都使用传统的词向量模型:
Word2vec
模型,
Word2vec
模型不能反映单词在不同上下文中的多义性


技术实现思路

[0010]为了解决上述现有技术中存在的问题,本专利技术提出了一种电网文本数据分级分类方法及系统

[0011]本专利技术的技术方案如下:
[0012]一方面,本专利技术提供了一种电网文本数据分级分类方法,包括以下步骤:
[0013]收集电网文本数据并对收集的文本数据进行预处理,对预处理后的文本数据进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种电网文本数据分级分类方法,其特征在于,包括以下步骤:收集电网文本数据并对收集的文本数据进行预处理,对预处理后的文本数据进行数据增强,通过增强后的文本数据构建文本数据训练集;构建电网文本数据分级分类模型框架,所述框架由
BERT
预训练语言模型

双向门控循环网络模型

卷积神经网络模型以及输出层构成,基于
BERT
预训练语言模型的预训练参数对文本数据训练集进行微调;将微调后的文本数据训练集输入
BERT
预训练语言模型中得到文本数据训练集的语义信息以及文本数据训练集中变量的概率分布,将文本数据训练集的语义信息输入双向门控循环网络模型中,双向门控循环网络模型根据输入数据得到文本数据训练集的全局语义特征,再将文本数据训练集的全局语义特征输入卷积神经网络模型中得到文本数据训练集的局部语义特征,局部语义特征经过输出层得到电网文本数据训练分级分类结果;上述电网文本数据分级分类模型框架预设训练轮数,每轮训练都会对收集的电网文本数据重新进行预处理以及数据增强,并根据上一轮训练中
BERT
预训练语言模型输出的文本数据训练集中变量的概率分布更新下一轮训练中各模型的参数,当训练轮数结束后得到训练完成的电网文本数据分级分类模型框架,通过该框架对电网文本数据进行分级分类
。2.
根据权利要求1所述的一种电网文本数据分级分类方法,其特征在于,所述文本数据预处理包括数据清洗

分词以及去除停用词;所述数据清洗步骤基于正则表达式构建文本数据清洗规则,通过文本数据清洗规则删除过滤冗余信息,同时需要避免删除重要信息导致语义损失;所述分词步骤为将连续的文本数据按照特定的规则切分成为多个具有语义单元的词语序列;所述去除停用词步骤通过构建停用词表,基于停用词表通过字符匹配方式过滤文本数据中的无用词汇
。3.
根据权利要求1所述的一种电网文本数据分级分类方法,其特征在于,所述数据增强用于对原始文本进行变换和扩展,增加训练数据的多样性,具体为:通过同义词替换

随机插入

随机删除

随机交换以及文本重组方法对预处理后的文本数据进行增强
。4.
根据权利要求1所述的一种电网文本数据分级分类方法,其特征在于,所述
BERT
预训练语言模型由掩码语言模型与邻句预测模型构成;所述掩码语言模型用于随机抹去数据集中任一句子中的一个或几个词,并根据该句子中剩余的词预测被抹去的词;所述邻句预测模型用于根据给定数据集中的随机两个句子,预测两个句子是否为相邻句子;通过上述两个模型得到文本数据训练集的语义信息以及文本数据训练集中变量的概率分布
。5.
根据权利要求1所述的一种电网文本数据分级分类方法,其特征在于,所述双向门控循环网络模型由两个独立的门控循环单元构成,分别为正向门控循环单元与反向门控循环单元,在每个时刻下两个单元通过正反两个方向对输入数据进行学习,在
t
时刻下双向门控循环网络模型的输出值由正向门控循环单元与反向门控循环单元共同决定,计算公式如
...

【专利技术属性】
技术研发人员:陈为标林育樟林露馨杨小娟郑飘飘何致远江欣霖陈奋增
申请(专利权)人:国网福建省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1