一种发散式关联的风机设备运检知识图谱构建及检索方法技术

技术编号：38994296 阅读：9 留言：0更新日期：2023-10-07 10:25

本发明专利技术涉及一种发散式关联的风机设备运检知识图谱构建及检索方法，属于风机设备运检与知识图谱领域，针对结构化数据如关系型数据库中的数据，完成从结构化数据到知识图谱到映射，实现从数据库向知识图谱的转化；针对非结构化数据，主要采用深度学习的方法，对风机运检过程产生的文本和网页信息进行知识抽取，完成实体识别与关系抽取，并将知识融合后的数据存入到Neo4j中，通过Neo4j图数据库实现知识图谱的可视化展示并可以使用Cypher查询语言进行语义查询。方便运维人员快速查询运维知识，挖掘运维数据。挖掘运维数据。挖掘运维数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种发散式关联的风机设备运检知识图谱构建及检索方法

[0001]本专利技术属于风机设备运检与知识图谱领域，具体涉及一种发散式关联的风机设备运检知识图谱构建及检索方法。

技术介绍

[0002]随着越来越多的物联网、人工智能等技术被引入风机运检中，运检过程中的新设备、新方法也让风机运检过程变得更加复杂。在这种情况下，风机运检的业务将面临越来越大的挑战。风机运检过程中存在大量的多源异构数据，管理类别众多且繁杂，管理效率低下。
[0003]知识图谱是一种语义网，它以结构化的形式表示事物以及事物之间的关系，可以有效利用大量的结构化、半结构化和非结构化数据。知识图谱的构建包括知识抽取、知识融合与知识表示等。知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱主要应用于搜索引擎；领域知识图谱主要应用于特定的领域，专业化程度更高，已在医疗、法律、金融、电商等领域有应用。
[0004]领域知识图谱构建的一个关键挑战是缺乏领域内的数据集且专业术语和概念较多。传统的基于规则或基于模板的知识抽取需要人工构建大量的规则模板，适用范围有限，难以适应复杂的需求。
[0005]因此，现阶段需设计一种发散式关联的风机设备运检知识图谱构建及检索方法，来解决以上问题。

技术实现思路

[0006]本专利技术目的在于提供一种发散式关联的风机设备运检知识图谱构建及检索方法，用于解决上述现有技术中存在的技术问题，构建知识图谱，减少人工的精力消耗，实现自动化地从原始数据中获取知识，并以Neo4j图数据库进行可视化存储。/>[0007]为实现上述目的，本专利技术的技术方案是：
[0008]一种发散式关联的风机设备运检知识图谱构建及检索方法，包括以下步骤：
[0009]S1：通过数据获取模块获取文档、表格及新闻等原始数据,将原始数据进行预处理，得到包括结构化数据与半/非结构化数据的预处理后的数据；并采用BERT
‑
BiLSTM
‑
CRF模型/关系抽取和属性抽取进行结构化进行实体抽取。
[0010]S2：对非结构化数据进行实体识别和实体消歧，通过对语句进行标签定义，确定语句中实体所处的范围。基于实体命名属性关系类似度比较法，将各组多源数据的共同命名实体以及所选属性存储在表中，对各个具备条件的属性设置不同权重，计算所有属性的加权值判断实体的相似度。
[0011]S3：采用Path
‑
RNN模型进行知识推理，采用路径推理法，将目标实体之间的路径，转化为RNN网络的输入，从而进行知识推理。
[0012]S4：风机故障知识图谱实体部分构建，结合TextRank和TF IDF技术对术语进行识
别处理。创建概念实体。操作术语、事故处理术语、操作术语和故障术语是由两种算法提取的关键词创建的术语：校正、融合、筛选和分类。筛选方法结合数据材料完成术语，详细解释专业术语，并通过搜索和匹配添加相关的调度和安全规定。
[0013]S5：知识图谱的存储、展示和查询，根据实体框架，将各类实体结构化；在Neo4j中灵活运用neo4j
‑
web和neo4j
‑
import，将通过数据清洗后得到的各个风机缺陷、缺陷原因、设备及零部件部件等标准结构化数据进行控制导入。用Cypher查询语言进行语义查询，实现运用与图数据库的联接和交互；实现基于图数据库的各类语义类型、关系及节点对象、关系对象的查询、展示、修改。
[0014]所述步骤S1具体包括：应用网络爬虫技术，依法获取并下载各发电公司或设备厂家公开发布的文档以及风机运检过程的表格，然后需要针对不同的文件格式，分别利用开源软件模块python
‑
docx、xlrd和pdfminer读取word、excel和pdf中包含的数据。
[0015]然后，从文本中获得的原始数据经过变换和编码，转换成适合计算机处理的向量形式，本专利技术使用了skip
‑
gram模型优化词向量矩阵L，为每个词语学习准确的词向量表示。给定任意n元组(w，C)＝w
n
‑
c
…
w
n
‑1w
n
w
n+1
…
w
n+C
,模型利用中心词的词向量e(w
n
)预测上下文中第t个词汇w
t
的概率为:
[0016][0017]上式中，w
n
表示中心词；e(w
n
)∈R
d
表示w
n
所对的d维度词向量，这种向量可通过向量矩阵L检索获得；C是规模大小，代表背景的窗口大小。模型的目标函数如下：
[0018][0019]在模型训练完毕后，可以得到优化后的词向量矩阵，包含此表中的全部分布式向量的表示。
[0020]针对文本数据的知识抽取。本专利利用双向长短期记忆神经网络(Bidirectional Long Short Term Memory，BiLSTM)结合条件随机场(ConditionalRandom Field，CRF)的模型，进行命名实体的识别。
[0021]当给定词汇序列X＝x0x1...x
n
，在已训练完成的的词向量表中查找到每个词汇对应的词向量e
n
∈R
d1
，d1代表的是其向量的维度。LSTM是由一个记忆存储单元和三个门来控制的它的输入是前一时刻的隐藏层表示hi
‑
1和前一电力信息与通信技术时刻的输出wi
‑
1，输出是当前时刻的隐藏层表示hi。计算方法如下：
[0022]i
n
＝σ(W
i
e(W
n
‑1)+U
i
h
n
‑1+V
i
C
n
‑1+b
i
)
[0023]f
n
＝σ(W
f
e(W
n
‑1)+U
f
h
n
‑1+V
f
C
n
‑1+b
f
)
[0024]o
n
＝σ(W
o
e(W
n
‑1)+U
o
h
n
‑1+V
o
C
n
‑1+b
o
)
[0025][0026][0027][0028]h
n
＝o
n
⊙
tanh(c
n
)
[0029][0030]式中，i
n
、f
n
、o
n
分别代表输入、遗忘和输出门；c
n
代表记忆单元；W
n
、U
n<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种发散式关联的风机设备运检知识图谱构建及检索方法，其特征在于，包括下述步骤：S1：通过数据获取模块获取原始数据,将原始数据进行预处理，得到包括结构化数据与半/非结构化数据的预处理后的数据；并采用BERT
‑
BiLSTM
‑
CRF模型/关系抽取和属性抽取进行结构化进行实体抽取；S2：对非结构化数据进行实体识别和实体消歧，通过对语句进行标签定义，确定语句中实体所处的范围；基于实体命名属性关系类似度比较法，将各组多源数据的共同命名实体以及所选属性存储在表中，对各个具备条件的属性设置不同权重，计算所有属性的加权值判断实体的相似度；S3：采用Path
‑
RNN模型进行知识推理，采用路径推理法，将目标实体之间的路径，转化为RNN网络的输入，从而进行知识推理；S4：风机故障知识图谱实体部分构建，结合TextRank和TF IDF对术语进行识别处理，创建概念实体；操作术语、事故处理术语、操作术语和故障术语是提取的关键词创建的术语：校正、融合、筛选和分类；筛选方法结合数据材料完成术语，详细解释专业术语，并通过搜索和匹配添加相关的调度和安全规定；S5：知识图谱的存储、展示和查询，根据实体框架，将各类实体结构化；在Neo4j中灵活运用neo4j
‑
web和neo4j
‑
import，将通过数据清洗后得到的各个风机缺陷、缺陷原因、设备及零部件部件标准结构化数据进行控制导入；用Cypher查询语言进行语义查询，实现运用与图数据库的联接和交互；实现基于图数据库的各类语义类型、关系及节点对象、关系对象的查询、展示、修改。2.根据权利要求1的一种发散式关联的风机设备运检知识图谱构建及检索方法，其特征在于，步骤S1具体如下：应用网络爬虫技术，依法获取并下载各发电公司或设备厂家公开发布的文档以及风机运检过程的表格，然后针对不同的文件格式，分别利用开源软件模块python
‑
docx、xlrd和pdfminer读取word、excel和pdf中包含的数据；从文本中获得的原始数据经过变换和编码，转换成适合计算机处理的向量形式，使用skip
‑
gram模型优化词向量矩阵L，为每个词语学习准确的词向量表示；给定任意n元组(w，C)＝w
n
‑
c
...w
n
‑1w
n
w
n+1
...w
n+C
,模型利用中心词的词向量e(w
n
)预测文中第t个词汇w
t
的概率为：上式中，w
n
表示中心词；e(w
n
)∈R
d
表示w
n
所对的d维度词向量，这种向量可通过向量矩阵L检索获得；C是规模大小，代表背景的窗口大小；模型的目标函数如下：在模型训练完毕后，可得到优化后的词向量矩阵，包含此表中的全部分布式向量的表示；针对文本数据的知识抽取；利用双向长短期记忆神经网络BiLSTM结合条件随机场CRF的模型，进行命名实体的识别；
当给定词汇序列X＝x0x1...x
n
，在已训练完成的的词向量表中查找到每个词汇对应的词向量e
n
∈R
d1
，d1代表的是其向量的维度；LSTM是由一个记忆存储单元和三个门来控制的它的输入是前一时刻的隐藏层表示hi
‑
1和前一电力信息与通信技术时刻的输出wi
‑
1，输出是当前时刻的隐藏层表示hi；计算方法如下：i
n
＝σ(W
i
e(W
n
‑1)+U
i
h
n
‑1+V
i
C
n
‑1+b
i
)f
n
＝σ(W
f
e(W
n
‑1)+U
f
h
n
‑1+V
f
C
n
‑1+b
f
)o
n
＝σ(W
o
e(W
n
‑1)+U
o
h
n
‑1+V
o
C
n
‑1+b
o
)))h
n
＝o
n
⊙
tan h(c
n
)式中，i
n
、f
n
、o
n
分别代表输入、遗忘和输出门；c
n
代表记忆单元；W
n
、U
n
、V
n
等和b
i
、b
f
、b
o
表示线性关系的偏移和系数，σ(x)表示激活函数，
⊙
表示点积；前序的LSTM得到的每个字符对应的隐藏层的表达是同理，后续的LSTM得到隐藏层的表达则是前序隐藏层捕捉e(i)及其...

【专利技术属性】
技术研发人员：满于维，卜俊文，王正海，李泽，
申请(专利权)人：广西卓洁电力工程检修有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人