一种电力生产安全隐患文本识别方法及系统技术方案

技术编号：39662287 阅读：12 留言：0更新日期：2023-12-11 18:25

本发明专利技术公开了一种电力生产安全隐患文本识别方法及系统，包括：安全隐患文本特征提取；电力生产安全隐患相似度计算；电力生产安全隐患文本识别

全部详细技术资料下载

【技术实现步骤摘要】
一种电力生产安全隐患文本识别方法及系统

[0001]本专利技术涉及电力生产安全领域，尤其是一种电力生产安全隐患文本识别方法及系统
。

技术介绍

[0002]电力安全生产隐患是指在电力生产过程中可能导致人身伤亡
、
设备损坏
、
环境污染等安全事故发生的潜在风险
。
随着电力工业的快速发展和电力设备的普及应用，电力生产安全隐患的数量和种类也在逐年增加，给人们的生命财产安全带来了严重的威胁
。
因此，对电力生产安全隐患的识别
、
评估和控制已成为电力生产中的一项重要任务，同时安全隐患管理也是任何项目建设中不可或缺的组成部分，有效的安全隐患管理可提高项目建设效率，减少人员伤亡和财产损失
。
[0003]然而，及时
、
准确地在施工文件中识别安全隐患，提高施工安全管理水平仍具有一定挑战性
。
因为施工文件的获取很大程度上依赖于有效的数据采集和管理，以至于施工文件中的安全隐患信息是以非结构化或半结构性的格式呈现的
。
因此，从施工文件中提取隐患文本数据对于发现安全问题和总结安全管理具有重要意义
。
然而，由于文本分析方法的局限性，很难有效地提取和使用这些文本数据
。
手工方法成本昂贵
、
耗时，不能满足从大型安全隐患文本中进行信息挖掘的要求
。
此外，大部分关键信息在施工文件中以专业术语的形式呈现
。/>但文本信息提取方法能够识别已注册的专业术语，而不能在专业领域识别未知的专业术语特征，所以容易导致提取信息的歧义和分析错误，导致对管理人员和电力施工现场管理缺陷的理解不明确
。
但现有的专业术语库不能满足安全隐患对文本处理的要求，同时，未知词的存在也会影响专业术语数据库的完整性，影响安全隐患管理中新专业术语的推广
。
因此，从大量的安全隐患文本中智能识别未注册的专业术语，构建具有专业特征的专业术语库是一个需要解决的问题
。
[0004]文本信息提取和分析的效率，将复杂和冗长的文本简化为一种可以快速理解的形式
。
但传统的文本信息提取与识别仍有局限性：
[0005]1)
术语网络中包含了许多专业术语之间的相关关系，很难根据管理者的要求从专业术语网络中直观地获取安全隐患信息
。
同时，手工操作耗时长，不能保证安全隐患文本提取的准确性并且从大量文本中提取包含关键信息的专业术语具有挑战性，从而影响了施工安全管理的效率
。
[0006]2)
在安全隐患文本中有许多专业术语，其中只有部分专业术语可以代表关键信息，同时这些关键信息又存在高度碎片化问题，难以形成一个完整的信息链，因此会导致安全隐患文本识别不精准和管理人员很难判断特定位置的安全隐患信息等问题
。
由于文本分割软件不能直接识别安全隐患文本中的专业术语，导致后续文本识别工作困难
。

技术实现思路

[0007]本专利技术是为了解决
技术介绍
存在的上述问题，提供一种电力生产安全隐患文本识
别方法及系统
。
[0008]本专利技术的技术解决方案是：一种电力生产安全隐患文本识别方法，包括：
[0009]根据安全隐患词组组合，确定安全隐患文本初步专业术语库；
[0010]采用基于
Word2vec
的单词相似度计算方法，将所述安全隐患文本初步专业术语库中的安全隐患文本进行分割后导入到
Word2vec
进行字向量计算和语义相似度计算，构建安全隐患文本专业术语识别集；
[0011]结合
TF
‑
IDF
法对安全隐患文本专业术语识别集中的安全隐患专业术语进行处理，对经过处理的安全隐患文本专业术语进行排序，根据安全隐患文本专业术语的排序结果集，结合
TF
‑
IDF
值来衡量专业术语，过滤安全隐患文本中的关键信息，实现安全隐患文本的识别
。
[0012]进一步地，根据安全隐患词组组合，确定安全隐患文本初步专业术语库，具体步骤包括：
[0013]S1.1
定义专业术语识别值：
[0014]Mh(i,j)
＝
S(i,j)
×
PMI(i,j)
×
min(H
L
(i,j),H
R
(i,j)) (1)
[0015]其中，
Mh(i
，
j)
为专业术语识别值；
S(i
，
j)
为单词
i
和
j
之间的语义相似度；
PMI(i
，
j)
为单词
i
和
j
之间的互信息值；
H
L
(i
，
j)
和
H
R
(i
，
j)
为单词
i
的左右信息熵值；通过专业术语识别，确定左右信息熵用于评价相邻单词之间的空间关系，找到最小的熵值作为空间关系值；
[0016]S1.2
定义专业术语识别阈值：
[0017]Mh(i,j)
＞
θ
,i,j∈C
ꢀꢀꢀ
(2)
[0018]其中，
θ
为专业术语识别阈值；
C
为常数；
[0019]S1.3
根据信息熵确认单词排序方式：
[0020][0021]其中，
U
ij
为由单词
i、j
组成的专业术语；
H
L
(i
，
j)
，
H
R
(i
，
j)
为左右信息熵值；
(j
，
i)
表示单词
j
是左邻词
i
，即单词
j
从左接单词
i
；
(i
，
j)
表示单词
j
是右邻词
i
，即单词
j
从右接单词
i
；所述信息熵的临界范围由公式
(2)
确定；
[0022]通过上述计算公式进行安全隐患词组组合的消除和提取，完成左右信息熵的提取和导入并确定隐患中心词，建立起安全隐患文本初步专业术语库
。
[0023]进一步地，基于
Word2vec
的单词相似度计算过程如下：
[0024]S2.1
：采用基于
Word2vec
的单词相似度计算，选本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种电力生产安全隐患文本识别方法，其特征在于，包括：根据安全隐患词组组合，确定安全隐患文本初步专业术语库；采用基于
Word2vec
的单词相似度计算方法，将所述安全隐患文本初步专业术语库中的安全隐患文本进行分割后导入到
Word2vec
进行字向量计算和语义相似度计算，构建安全隐患文本专业术语识别集；结合
TF
‑
IDF
法对安全隐患文本专业术语识别集中的安全隐患专业术语进行处理，对经过处理的安全隐患文本专业术语进行排序，根据安全隐患文本专业术语的排序结果集，结合
TF
‑
IDF
值来衡量专业术语，过滤安全隐患文本中的关键信息，实现安全隐患文本的识别
。2.
根据权利要求1所述的一种电力生产安全隐患文本识别方法，其特征在于，根据安全隐患词组组合，确定安全隐患文本初步专业术语库，具体步骤包括：
S1.1
定义专业术语识别值：
Mh(i,j)
＝
S(i,j)
×
PMI(i,j)
×
min(H
L
(i,j),H
R
(i,j))
ꢀꢀ
(1)
其中，
Mh(i
，
j)
为专业术语识别值；
S(i
，
j)
为单词
i
和
j
之间的语义相似度；
PMI(i
，
j)
为单词
i
和
j
之间的互信息值；
H
L
(i
，
j)
和
H
R
(i
，
j)
为单词
i
的左右信息熵值；通过专业术语识别，确定左右信息熵用于评价相邻单词之间的空间关系，找到最小的熵值作为空间关系值；
S1.2
定义专业术语识别阈值：
Mh(i,j)
＞
θ
,i,j∈C
ꢀꢀꢀ
(2)
其中，
θ
为专业术语识别阈值；
C
为常数；
S1.3
根据信息熵确认单词排序方式：其中，
U
ij
为由单词
i、j
组成的专业术语；
H
L
(i
，
j)
，
H
R
(i
，
j)
为左右信息熵值；
(j
，
i)
表示单词
j
是左邻词
i
，即单词
j
从左接单词
i
；
(i
，
j)
表示单词
j
是右邻词
i
，即单词
j
从右接单词
i
；所述信息熵的临界范围由公式
(2)
确定；通过上述计算公式进行安全隐患词组组合的消除和提取，完成左右信息熵的提取和导入并确定隐患中心词，建立起安全隐患文本初步专业术语库
。3.
根据权利要求1所述的一种电力生产安全隐患文本识别方法，其特征在于，基于
Word2vec
的单词相似度计算过程如下：
S2.1
：采用基于
Word2vec
的单词相似度计算，选择
CBOW
模型来计算词向量；利用
CBOW
模型将所有的词向量映射到相同的位置；对于文本序列
Qs
＝
(q1
，
q2
，
…
，
qr)
，利用
CBOW
模型在映射层中处理上下文
Qs
中的单词，其映射函数定义如公式
(4)
所示：其中
w
为隐层加权矩阵；矩阵维数为
r
×
z
；
z
为单词向量的维数；
h
为上下文的表达式；
S2.2
：利用文本分割软件直接识别单词
i
和单词
j
，定义为底层单词；
S2.3
：进行安全隐患文本词频统计：
式中，
C
为文本分割软件直接提取的单词仓库；
N
i
、N
j
分别为
i、j
的频率；
B
C
为单词仓库
C
中的词数；
Q(i)
是单词
i
在安全隐患文本中的频率；
Q(j)
是单词
j
在安全环境中的频率隐患文本；
S2.4
：计算安全隐患词间共线频率计算安全隐患词间并发频率：式中，
Q(i
，
j)
是单词
i
和
j
的共线频率；
D
ij
为
i、j
的并发频率；
CF
ij
为单词
i
和
j
的共存次数；
d
ij
为单词
i
和
j
之间的空间距离；
m
为句子的长度，即句子中的单词数
。4.
根据权利要求1所述的一种电力生产安全隐患文本识别方法，其特征在于，结合
...

【专利技术属性】
技术研发人员：孟镇，李忠伟，韩锦刚，邱鹏，付一峰，闫怡君，梁爽，
申请(专利权)人：东北电力大学国家电网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人