一种电力生产安全隐患文本聚类方法及系统技术方案

技术编号:39490847 阅读:9 留言:0更新日期:2023-11-24 11:13
一种电力生产安全隐患文本聚类方法及系统,包括:基于TF

【技术实现步骤摘要】
一种电力生产安全隐患文本聚类方法及系统


[0001]本专利技术涉及电力生产安全领域,尤其是一种基于改进K

means算法的电力生产安全隐患文本聚类方法及系统。

技术介绍

[0002]电力生产是现代工业生产中必不可少的一环。随着能源需求的不断增加,电力生产也变得越来越重要。但是,电力生产中存在着各种各样的安全隐患,这些安全隐患可能会导致严重的事故甚至人员伤亡。为了有效地避免电力生产中的安全隐患,需要及时发现和解决问题。传统的安全隐患检测方法通常是基于经验和规则的,但是这种方法存在一定的局限性,无法对所有潜在的安全隐患进行有效的检测和预测。
[0003]近年来,随着计算机技术的发展,K

means算法由于其简单实现,且和层次聚类算法相比时间复杂度低,能在短时间内处理海量的数据,因此被人们广泛应用于文本挖掘、数据分析和计算机视觉等领域中。在电力生产安全领域,利用K

means算法对电力生产安全隐患文本进行聚类,可以快速发现和识别安全隐患,有助于深入了解电力生产安全隐患的情况,并制定出有效的安全措施。然而利用K

means算法聚类后文本中仍然存在一些的噪声和无用信息,特别是,电力生产中的文本数据非常复杂,例如包含大量的技术术语、缩写词和专业术语,存在数据信息孤岛,使用K

means算法聚类电力生产安全隐患文本,聚类的效果也不好,因此需要更加细粒度的数据清洗。
[0004]如何针对电力生产安全隐患文本进行有效识别,已经成为电力生产稳定运行亟待解决的问题。目前电力生产安全隐患文本聚类还存在以下几个问题:
[0005]1)在电力生产安全隐患文本聚类过程中,文本预处理能够有效地去除文本中的噪声和无用信息,提高文本聚类的精度和效率。目前传统的中文分词工具存在预处理流程复杂和特征表示单一问题。
[0006]2)文本数据预处理后,对文本进行特征提取能提高文本聚类精度。然而常用的基于Word2vec文本特征提取的电力生产安全隐患文本数据呈现词向量固化和复杂度高特点,如果需要使用新的语料库,无法进行自适应,需要重新训练词向量。同时复杂度高也会导致耗费大量的计算资源和时间。
[0007]3)文本聚类中传统的K

means算法,一方面需要大量的标注电力生产安全隐患文本数据来训练和调整模型,而且这些数据需要由专业人员进行标注,这增加了人力成本。另一方面受质心位置和簇的数量影响,需要大量的参数调整和优化,产生聚类速度慢和容易陷入局部最优解问题,使得模型泛化能力变差。
[0008]当前在对电力生产安全隐患处理的时候,隐患文本数据的处理流程复杂,文本特征表示单一;传统的特征提取方法呈现词向量固化和复杂度高特点;聚类速度慢需要较长的时间才能完成,聚类容易陷入局部最优解,影响电力生产安全隐患的识别和预测。

技术实现思路

[0009]本专利技术的目的是解决基于K

means算法的聚类方法在电力生产安全隐患文本聚类时产生特征表示单一、词向量固化和容易陷入局部最优解的问题。从文本数据挖掘的角度,提出一种适用性更强、聚类结果更准确的基于改进K

means算法的电力生产安全隐患文本聚类方法及系统。
[0010]本专利技术的技术解决方案是:一种电力生产安全隐患文本聚类方法,包括:
[0011]基于TF

IDF算法对电力生产安全隐患文本进行jieba文本预处理,生成文本集;
[0012]对生成的文本集进行基于LSTM的Word2vec文本特征提取;
[0013]对经过Word2vec文本特征提取的文本集进行基于粒子群优化的K

means聚类。
[0014]进一步地,jieba文本预处理具体过程如下:
[0015]S1.1:使用jieba分词库对电力安全生产隐患文本进行分词处理,将文本切分为由jieba分词库排序的文本集;
[0016]S1.2:去除文本集中常见的无意义词语;
[0017]S1.3:构建文档

词频矩阵,将分词后的文本集转换成文档

词频矩阵;每一行代表一个文档,每一列代表一个词语,矩阵中的元素表示该词语在对应文档中的词频;
[0018]S1.4:根据给定的词语计算该词语在所述文件集内出现的频率TF,第i个文档中第j个词语在整篇文章中出现的概率TF
ij
的计算如公式(1)所示:
[0019][0020]其中,n
ij
为电力生产安全隐患文本中特征词在文本中出现的次数,Σ
k
n
kj
为文本中所有特征词的次数;计算的结果是某一功率特征词的词频;
[0021]S1.5:使用IDF
ij
评估一个词语是否具有普遍重要性;第i个文档中第j个词语反文本频率为总文件数量除以包含此词语的文件数量,然后把两者相除所得值取对数即为IDF
ij
,计算如公式(2)所示:
[0022][0023]S1.6:使用特定文件中的高词语频率,结合此词语于文件集合内的低文件频率,生成高权重的TF

IDF
ij
;计算TF

IDF
ij

[0024]TF

IDF
ij
=TF
ij
·
IDF
ij
ꢀꢀ
(3)
[0025]TF

IDF
ij
的值由词频TF
ij
与反向文本词频IDF
ij
的乘积得到;TF

IDF值越大,功率特征词对文本的重要性越大。
[0026]进一步地,基于LSTM的Word2vec文本特征提取过程如下:
[0027]S2.1:构建Word2Vec模型;创建词汇表,建立一个包含所有词汇的词汇表,并为每个词汇分配一个唯一的索引;构建训练样本,将文本数据转换为Word2Vec的输入样本;使用滑动窗口,将窗口内的中心词作为输入,窗口内的其他词作为上下文词;
[0028]S2.2:训练Word2Vec模型;定义Word2Vec模型的超参数,包括词向量维度vector_size和窗口尺寸window;使用构建好的训练样本,作为Word2Vec模型输入数据进行训练;
[0029]S2.3:构建LSTM模型,定义LSTM模型的超参数,隐藏状态维度和层数;
[0030]S2.4:Word2Vec模型训练的对应向量表示每个单词后,单词{T1,

,Tn}序列依次输入到LSTM模型,使用LSTM模型的最后一个隐藏状态作为特征向量,该向量包含了整个序列的信息;
[0031]S2.5:在LSTM动态门结构中,遗忘门决定要忘本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电力生产安全隐患文本聚类方法,其特征在于,包括:基于TF

IDF算法对电力生产安全隐患文本进行jieba文本预处理,生成文本集;对生成的文本集进行基于LSTM的Word2vec文本特征提取;对经过Word2vec文本特征提取的文本集进行基于粒子群优化的K

means聚类。2.根据权利要求1所述的一种电力生产安全隐患文本聚类方法,其特征在于,jieba文本预处理具体过程如下:S1.1:使用jieba分词库对电力安全生产隐患文本进行分词处理,将文本切分为由jieba分词库排序的文本集;S1.2:去除文本集中常见的无意义词语;S1.3:构建文档

词频矩阵,将分词后的文本集转换成文档

词频矩阵;每一行代表一个文档,每一列代表一个词语,矩阵中的元素表示该词语在对应文档中的词频;S1.4:根据给定的词语计算该词语在所述文件集内出现的频率TF,第i个文档中第j个词语在整篇文章中出现的概率TF
ij
的计算如公式(1)所示:其中,n
ij
为电力生产安全隐患文本中特征词在文本中出现的次数,Σ
k
n
kj
为文本中所有特征词的次数;计算的结果是某一功率特征词的词频;S1.5:使用IDF
ij
评估一个词语是否具有普遍重要性;第i个文档中第j个词语反文本频率为总文件数量除以包含此词语的文件数量,然后把两者相除所得值取对数即为IDF
ij
,计算如公式(2)所示:S1.6:使用特定文件中的高词语频率,结合此词语于文件集合内的低文件频率,生成高权重的TF

IDF
ij
;计算TF

IDF
ij
:TF

IDF
ij
=TF
ij
·
IDF
ij
ꢀꢀꢀꢀꢀ
(3)TF

IDF
ij
的值由词频TF
ij
与反向文本词频IDF
ij
的乘积得到;TF

IDF值越大,功率特征词对文本的重要性越大。3.根据权利要求1所述的一种电力生产安全隐患文本聚类方法,其特征在于,基于LSTM的Word2vec文本特征提取过程如下:S2.1:构建Word2Vec模型;创建词汇表,建立一个包含所有词汇的词汇表,并为每个词汇分配一个唯一的索引;构建训练样本,将文本数据转换为Word2Vec的输入样本;使用滑动窗口,将窗口内的中心词作为输入,窗口内的其他词作为上下文词;S2.2:训练Word2Vec模型;定义Word2Vec模型的超参数,包括词向量维度vector_size和窗口尺寸window;使用构建好的训练样本,作为Word2Vec模型输入数据进行训练;S2.3:构建LSTM模型,定义LSTM模型的超参数,隐藏状态维度和层数;S2.4:Word2Vec模型训练的对应向量表示每个单词后,单词{T1,

,Tn}序列依次输入到LSTM模型,使用LSTM模型的最后一个隐藏状态作为特征向量,该向量包含了整个序列的信息;
S2.5:在LSTM动态门结构中,遗忘门决定要忘记什么信息,该门读取t时刻输入数据x
t
和t

1时刻单元门输出数据h
t
‑1,输出一个在0到1之间的数值,f
t
表示要舍弃信息的百分值,0代表完全舍弃,1代表完全保留;ft的计算公式为:f
t
=σ(W
f
[h
t
‑1,x
t
]+b
f
)其中,σ表示sigmoid函数,W
f
表示遗忘门权重,b
f
表示遗忘门偏置;S2.6:动态门结构细分为输入门和输出门,输入门控制哪些新的信息将被添加到细胞状态,输出门值控制记忆单元状态值的输出,其中输出门权重和偏置的计算决定了输出的信息;通过LSTM模型的门控机制和状态更新,能够捕捉文本集中的长期依赖关系,提取有意义的语义特征。4.根据权利要求1所述的一种电力生产安全隐患文本聚类方法,其特征在于,K

means聚类过程如下:S3.1:在电力生产安全隐患文本中,将每个词看作一个“粒子”,将每个粒子的位置看作一个词向量;然后,随机生成若干个初始位置,每个位置对应一个词向量,作为粒子群优化改进的K

means算法的初始解集;定义第p个粒子的随机位置X和速度V分别为X
P
,V
P
;其中每个粒子的随机位置X
P
对应大小为K
×
m的簇中心,V
P
表示粒子位置的变化率;S3.2:粒子群优化算法的参数,学习因子c和惯性参数w的定义分别为(c1,c2)和(w
max
,w
min
);S3.3:启动迭代过程并设置迭代计数t=1;S3.4:使用K

means算法计算第p个聚类中心与第i个电力生产安全隐患文本数据集即m空间中的数据点之间的距离测度使用的距离度量是欧几里德距离,如公式(4)所示:在K

means算法中为种群中的每个粒子运行以下步骤:(i)利用公式(7)计算聚类中心(粒子)p与电力生产安全隐患文本数据点之间的欧氏距离度量(ii)将每个数据对象x
i
分配给最近的聚类中心X
P
;S3.5:根据最小距离准则对电力生产安全隐患文本数据对象进行分组后,计算适应度函数,该适应度函数为分类精度的最大化,如公式(5)所示:S3.6:对于适应度值来说,将评估结果与粒子之前的最佳值P
best
进行比较;如果当前位置(集群中心位置)比P
best
好,则将当前位置分配给P
best
,否则保留P
best
原来的值,这一过程对粒子群中的每一个粒子都进行;更新为P
best
后,选择最适合的值,并将其赋值为G
best
;G
best
是一个维度为K
×
m的单粒子,K是数据库分区时确定的集群数量;S3.7:每个粒子的速度和位置如公式(6)、(7)所示:
常数c1和c2被称为加速度(学习因子),表示将每个...

【专利技术属性】
技术研发人员:张博梁浩白洋邱实许朕玮姜庆轩李嘉诚
申请(专利权)人:东北电力大学国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1