【技术实现步骤摘要】
一种电力生产安全隐患文本聚类方法及系统
[0001]本专利技术涉及电力生产安全领域,尤其是一种基于改进K
‑
means算法的电力生产安全隐患文本聚类方法及系统。
技术介绍
[0002]电力生产是现代工业生产中必不可少的一环。随着能源需求的不断增加,电力生产也变得越来越重要。但是,电力生产中存在着各种各样的安全隐患,这些安全隐患可能会导致严重的事故甚至人员伤亡。为了有效地避免电力生产中的安全隐患,需要及时发现和解决问题。传统的安全隐患检测方法通常是基于经验和规则的,但是这种方法存在一定的局限性,无法对所有潜在的安全隐患进行有效的检测和预测。
[0003]近年来,随着计算机技术的发展,K
‑
means算法由于其简单实现,且和层次聚类算法相比时间复杂度低,能在短时间内处理海量的数据,因此被人们广泛应用于文本挖掘、数据分析和计算机视觉等领域中。在电力生产安全领域,利用K
‑
means算法对电力生产安全隐患文本进行聚类,可以快速发现和识别安全隐患,有助于深入了解电力生产安全隐患的情况,并制定出有效的安全措施。然而利用K
‑
means算法聚类后文本中仍然存在一些的噪声和无用信息,特别是,电力生产中的文本数据非常复杂,例如包含大量的技术术语、缩写词和专业术语,存在数据信息孤岛,使用K
‑
means算法聚类电力生产安全隐患文本,聚类的效果也不好,因此需要更加细粒度的数据清洗。
[0004]如何针对电力生产安全隐患文本进行有效识别 ...
【技术保护点】
【技术特征摘要】
1.一种电力生产安全隐患文本聚类方法,其特征在于,包括:基于TF
‑
IDF算法对电力生产安全隐患文本进行jieba文本预处理,生成文本集;对生成的文本集进行基于LSTM的Word2vec文本特征提取;对经过Word2vec文本特征提取的文本集进行基于粒子群优化的K
‑
means聚类。2.根据权利要求1所述的一种电力生产安全隐患文本聚类方法,其特征在于,jieba文本预处理具体过程如下:S1.1:使用jieba分词库对电力安全生产隐患文本进行分词处理,将文本切分为由jieba分词库排序的文本集;S1.2:去除文本集中常见的无意义词语;S1.3:构建文档
‑
词频矩阵,将分词后的文本集转换成文档
‑
词频矩阵;每一行代表一个文档,每一列代表一个词语,矩阵中的元素表示该词语在对应文档中的词频;S1.4:根据给定的词语计算该词语在所述文件集内出现的频率TF,第i个文档中第j个词语在整篇文章中出现的概率TF
ij
的计算如公式(1)所示:其中,n
ij
为电力生产安全隐患文本中特征词在文本中出现的次数,Σ
k
n
kj
为文本中所有特征词的次数;计算的结果是某一功率特征词的词频;S1.5:使用IDF
ij
评估一个词语是否具有普遍重要性;第i个文档中第j个词语反文本频率为总文件数量除以包含此词语的文件数量,然后把两者相除所得值取对数即为IDF
ij
,计算如公式(2)所示:S1.6:使用特定文件中的高词语频率,结合此词语于文件集合内的低文件频率,生成高权重的TF
‑
IDF
ij
;计算TF
‑
IDF
ij
:TF
‑
IDF
ij
=TF
ij
·
IDF
ij
ꢀꢀꢀꢀꢀ
(3)TF
‑
IDF
ij
的值由词频TF
ij
与反向文本词频IDF
ij
的乘积得到;TF
‑
IDF值越大,功率特征词对文本的重要性越大。3.根据权利要求1所述的一种电力生产安全隐患文本聚类方法,其特征在于,基于LSTM的Word2vec文本特征提取过程如下:S2.1:构建Word2Vec模型;创建词汇表,建立一个包含所有词汇的词汇表,并为每个词汇分配一个唯一的索引;构建训练样本,将文本数据转换为Word2Vec的输入样本;使用滑动窗口,将窗口内的中心词作为输入,窗口内的其他词作为上下文词;S2.2:训练Word2Vec模型;定义Word2Vec模型的超参数,包括词向量维度vector_size和窗口尺寸window;使用构建好的训练样本,作为Word2Vec模型输入数据进行训练;S2.3:构建LSTM模型,定义LSTM模型的超参数,隐藏状态维度和层数;S2.4:Word2Vec模型训练的对应向量表示每个单词后,单词{T1,
…
,Tn}序列依次输入到LSTM模型,使用LSTM模型的最后一个隐藏状态作为特征向量,该向量包含了整个序列的信息;
S2.5:在LSTM动态门结构中,遗忘门决定要忘记什么信息,该门读取t时刻输入数据x
t
和t
‑
1时刻单元门输出数据h
t
‑1,输出一个在0到1之间的数值,f
t
表示要舍弃信息的百分值,0代表完全舍弃,1代表完全保留;ft的计算公式为:f
t
=σ(W
f
[h
t
‑1,x
t
]+b
f
)其中,σ表示sigmoid函数,W
f
表示遗忘门权重,b
f
表示遗忘门偏置;S2.6:动态门结构细分为输入门和输出门,输入门控制哪些新的信息将被添加到细胞状态,输出门值控制记忆单元状态值的输出,其中输出门权重和偏置的计算决定了输出的信息;通过LSTM模型的门控机制和状态更新,能够捕捉文本集中的长期依赖关系,提取有意义的语义特征。4.根据权利要求1所述的一种电力生产安全隐患文本聚类方法,其特征在于,K
‑
means聚类过程如下:S3.1:在电力生产安全隐患文本中,将每个词看作一个“粒子”,将每个粒子的位置看作一个词向量;然后,随机生成若干个初始位置,每个位置对应一个词向量,作为粒子群优化改进的K
‑
means算法的初始解集;定义第p个粒子的随机位置X和速度V分别为X
P
,V
P
;其中每个粒子的随机位置X
P
对应大小为K
×
m的簇中心,V
P
表示粒子位置的变化率;S3.2:粒子群优化算法的参数,学习因子c和惯性参数w的定义分别为(c1,c2)和(w
max
,w
min
);S3.3:启动迭代过程并设置迭代计数t=1;S3.4:使用K
‑
means算法计算第p个聚类中心与第i个电力生产安全隐患文本数据集即m空间中的数据点之间的距离测度使用的距离度量是欧几里德距离,如公式(4)所示:在K
‑
means算法中为种群中的每个粒子运行以下步骤:(i)利用公式(7)计算聚类中心(粒子)p与电力生产安全隐患文本数据点之间的欧氏距离度量(ii)将每个数据对象x
i
分配给最近的聚类中心X
P
;S3.5:根据最小距离准则对电力生产安全隐患文本数据对象进行分组后,计算适应度函数,该适应度函数为分类精度的最大化,如公式(5)所示:S3.6:对于适应度值来说,将评估结果与粒子之前的最佳值P
best
进行比较;如果当前位置(集群中心位置)比P
best
好,则将当前位置分配给P
best
,否则保留P
best
原来的值,这一过程对粒子群中的每一个粒子都进行;更新为P
best
后,选择最适合的值,并将其赋值为G
best
;G
best
是一个维度为K
×
m的单粒子,K是数据库分区时确定的集群数量;S3.7:每个粒子的速度和位置如公式(6)、(7)所示:
常数c1和c2被称为加速度(学习因子),表示将每个...
【专利技术属性】
技术研发人员:张博,梁浩,白洋,邱实,许朕玮,姜庆轩,李嘉诚,
申请(专利权)人:东北电力大学国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。