一种电力生产安全隐患文本聚类方法及系统技术方案

技术编号：39490847 阅读：9 留言：0更新日期：2023-11-24 11:13

一种电力生产安全隐患文本聚类方法及系统，包括：基于TF

全部详细技术资料下载

【技术实现步骤摘要】
一种电力生产安全隐患文本聚类方法及系统

[0001]本专利技术涉及电力生产安全领域，尤其是一种基于改进K
‑
means算法的电力生产安全隐患文本聚类方法及系统。

技术介绍

[0002]电力生产是现代工业生产中必不可少的一环。随着能源需求的不断增加，电力生产也变得越来越重要。但是，电力生产中存在着各种各样的安全隐患，这些安全隐患可能会导致严重的事故甚至人员伤亡。为了有效地避免电力生产中的安全隐患，需要及时发现和解决问题。传统的安全隐患检测方法通常是基于经验和规则的，但是这种方法存在一定的局限性，无法对所有潜在的安全隐患进行有效的检测和预测。
[0003]近年来，随着计算机技术的发展，K
‑
means算法由于其简单实现，且和层次聚类算法相比时间复杂度低，能在短时间内处理海量的数据，因此被人们广泛应用于文本挖掘、数据分析和计算机视觉等领域中。在电力生产安全领域，利用K
‑
means算法对电力生产安全隐患文本进行聚类，可以快速发现和识别安全隐患，有助于深入了解电力生产安全隐患的情况，并制定出有效的安全措施。然而利用K
‑
means算法聚类后文本中仍然存在一些的噪声和无用信息，特别是，电力生产中的文本数据非常复杂，例如包含大量的技术术语、缩写词和专业术语，存在数据信息孤岛，使用K
‑
means算法聚类电力生产安全隐患文本，聚类的效果也不好，因此需要更加细粒度的数据清洗。
[0004]如何针对电力生产安全隐患文本进行有效识别...

【技术保护点】

【技术特征摘要】
1.一种电力生产安全隐患文本聚类方法，其特征在于，包括：基于TF
‑
IDF算法对电力生产安全隐患文本进行jieba文本预处理，生成文本集；对生成的文本集进行基于LSTM的Word2vec文本特征提取；对经过Word2vec文本特征提取的文本集进行基于粒子群优化的K
‑
means聚类。2.根据权利要求1所述的一种电力生产安全隐患文本聚类方法，其特征在于，jieba文本预处理具体过程如下：S1.1：使用jieba分词库对电力安全生产隐患文本进行分词处理，将文本切分为由jieba分词库排序的文本集；S1.2：去除文本集中常见的无意义词语；S1.3：构建文档
‑
词频矩阵，将分词后的文本集转换成文档
‑
词频矩阵；每一行代表一个文档，每一列代表一个词语，矩阵中的元素表示该词语在对应文档中的词频；S1.4：根据给定的词语计算该词语在所述文件集内出现的频率TF，第i个文档中第j个词语在整篇文章中出现的概率TF
ij
的计算如公式(1)所示：其中，n
ij
为电力生产安全隐患文本中特征词在文本中出现的次数，Σ
k
n
kj
为文本中所有特征词的次数；计算的结果是某一功率特征词的词频；S1.5：使用IDF
ij
评估一个词语是否具有普遍重要性；第i个文档中第j个词语反文本频率为总文件数量除以包含此词语的文件数量，然后把两者相除所得值取对数即为IDF
ij
，计算如公式(2)所示：S1.6：使用特定文件中的高词语频率，结合此词语于文件集合内的低文件频率，生成高权重的TF
‑
IDF
ij
；计算TF
‑
IDF
ij
：TF
‑
IDF
ij
＝TF
ij
·
IDF
ij
ꢀꢀꢀꢀꢀ
(3)TF
‑
IDF
ij
的值由词频TF
ij
与反向文本词频IDF
ij
的乘积得到；TF
‑
IDF值越大，功率特征词对文本的重要性越大。3.根据权利要求1所述的一种电力生产安全隐患文本聚类方法，其特征在于，基于LSTM的Word2vec文本特征提取过程如下：S2.1：构建Word2Vec模型；创建词汇表，建立一个包含所有词汇的词汇表，并为每个词汇分配一个唯一的索引；构建训练样本，将文本数据转换为Word2Vec的输入样本；使用滑动窗口，将窗口内的中心词作为输入，窗口内的其他词作为上下文词；S2.2：训练Word2Vec模型；定义Word2Vec模型的超参数，包括词向量维度vector_size和窗口尺寸window；使用构建好的训练样本，作为Word2Vec模型输入数据进行训练；S2.3：构建LSTM模型，定义LSTM模型的超参数，隐藏状态维度和层数；S2.4：Word2Vec模型训练的对应向量表示每个单词后，单词{T1，
…
，Tn}序列依次输入到LSTM模型，使用LSTM模型的最后一个隐藏状态作为特征向量，该向量包含了整个序列的信息；
S2.5：在LSTM动态门结构中，遗忘门决定要忘记什么信息，该门读取t时刻输入数据x
t
和t
‑
1时刻单元门输出数据h
t
‑1，输出一个在0到1之间的数值，f
t
表示要舍弃信息的百分值，0代表完全舍弃，1代表完全保留；ft的计算公式为：f
t
＝σ(W
f
[h
t
‑1，x
t
]+b
f
)其中，σ表示sigmoid函数，W
f
表示遗忘门权重，b
f
表示遗忘门偏置；S2.6：动态门结构细分为输入门和输出门，输入门控制哪些新的信息将被添加到细胞状态，输出门值控制记忆单元状态值的输出，其中输出门权重和偏置的计算决定了输出的信息；通过LSTM模型的门控机制和状态更新，能够捕捉文本集中的长期依赖关系，提取有意义的语义特征。4.根据权利要求1所述的一种电力生产安全隐患文本聚类方法，其特征在于，K
‑
means聚类过程如下：S3.1：在电力生产安全隐患文本中，将每个词看作一个“粒子”，将每个粒子的位置看作一个词向量；然后，随机生成若干个初始位置，每个位置对应一个词向量，作为粒子群优化改进的K
‑
means算法的初始解集；定义第p个粒子的随机位置X和速度V分别为X
P
，V
P
；其中每个粒子的随机位置X
P
对应大小为K
×
m的簇中心，V
P
表示粒子位置的变化率；S3.2：粒子群优化算法的参数，学习因子c和惯性参数w的定义分别为(c1,c2)和(w
max
,w
min
)；S3.3：启动迭代过程并设置迭代计数t＝1；S3.4：使用K
‑
means算法计算第p个聚类中心与第i个电力生产安全隐患文本数据集即m空间中的数据点之间的距离测度使用的距离度量是欧几里德距离，如公式(4)所示:在K
‑
means算法中为种群中的每个粒子运行以下步骤：(i)利用公式(7)计算聚类中心(粒子)p与电力生产安全隐患文本数据点之间的欧氏距离度量(ii)将每个数据对象x
i
分配给最近的聚类中心X
P
；S3.5：根据最小距离准则对电力生产安全隐患文本数据对象进行分组后，计算适应度函数，该适应度函数为分类精度的最大化，如公式(5)所示:S3.6：对于适应度值来说，将评估结果与粒子之前的最佳值P
best
进行比较；如果当前位置(集群中心位置)比P
best
好，则将当前位置分配给P
best
，否则保留P
best
原来的值，这一过程对粒子群中的每一个粒子都进行；更新为P
best
后，选择最适合的值，并将其赋值为G
best
；G
best
是一个维度为K
×
m的单粒子，K是数据库分区时确定的集群数量；S3.7：每个粒子的速度和位置如公式(6)、(7)所示：
常数c1和c2被称为加速度(学习因子)，表示将每个...

【专利技术属性】
技术研发人员：张博，梁浩，白洋，邱实，许朕玮，姜庆轩，李嘉诚，
申请(专利权)人：东北电力大学国家电网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人