构建基于电网相关文件的知识图谱的方法技术

技术编号:39748507 阅读:11 留言:0更新日期:2023-12-17 23:46
本发明专利技术为构建基于电网相关文件的知识图谱的方法

【技术实现步骤摘要】
构建基于电网相关文件的知识图谱的方法、装置及介质


[0001]本专利技术属于语言处理
,特别涉及构建基于电网相关文件的知识图谱的方法

装置及介质


技术介绍

[0002]知识图谱(
KG
)是一种结构化的

语义化的知识表示模型,用于描述现实世界中的实体

概念

关系和属性,并以图的形式表示它们之间的关联

知识图谱在许多应用领域都具有巨大的潜力,它以可视化的方式提供了信息组织

信息检索

知识管理与共享等功能

电力行业发展时间长

体量大,是国民经济重要的基础行业,基于电网相关文件构建知识图谱,可以促使相关业务人员充分理解和应用相关文本,大幅提高工作效率,对于文档级知识图谱构建具有代表意义

然而,由于电网相关文件信息复杂

涉及广泛,无法利用现有的模型构建满足实际需求的知识图谱

现有的模型存在如下问题:(1)实体识别受限:对于实体识别问题,特别是文档级的多实体问题难以有效识别;(2)关系提取有困难:构建知识图谱需要大量的关系抽取工作,现有技术对文档级的关系抽取难度较大;(3)知识表示有局限性:现有知识图谱广泛使用三元组(实体

关系

属性)表示知识,但这种方式难以应对文档级的多事实与主题分类的任务

因此,有必要改进现有的知识图谱模型来适应电网领域的需求


技术实现思路

[0003]针对现有模型不能处理电网相关文件的实际使用要求的问题,本专利技术提种构建基于电网相关文件的知识图谱的方法

装置及介质,能够有效识别文档级的多实体,能够提取跨句子的实体间关系,还能明确不同实体与关系间的主题分类

[0004]本专利技术采用技术方案如下:构建基于电网相关文件的知识图谱的方法,包括以下步骤:步骤1,搜集电网相关文件获得原始语料库,预处理原始语料库的文本,获得预处理语料库,同时预定义实体集合和关系集合,用于收集语料库中的名称;基于预定义的实体集合处理预处理语料库,获得带有标记实体答案的语料库;步骤2,基于带有标记实体答案的语料库,使用
Rigel

Intersect
模型进行多实体识别;步骤3,基于多实体识别结果,通过基于实体暗示的
seq2seq
模型进行关系提取;步骤4,构建基于
LDA

BERE
的提取模型,根据多实体识别结果和关系提取结果进行语义主题提取;步骤5,将结果进行可视化

[0005]进一步地,步骤1的很具体过程为:步骤
1.1
,搜集关于电力行业的相关的文件,形成原始语料库;步骤
1.2
,对原始语料库进行非文本内容剔除,使用
jieba
分词对原始语料库中的
文本进行中文分词,依据分词结果对单词进行词性标注,并去除文本中常见的中文停用词,得到预处理语料库

非文本内容包括额外空格

标点符号;步骤
1.3
,预定义实体集合和关系集合,基于预定义实体集合对预处理语料库进行数据标注,得到带有标记实体答案的语料库

[0006]进一步地,步骤2具体过程为:步骤
2.1
,构建
Rigel

Baseline
模型进行单实体识别;所述
Rigel Baseline
模型包括一个编码器和一个解码器,使用编码器对问题进行编码,使用解码器返回可微知识图谱上关系的概率分布;步骤
2.2
,通过可微分相交运算扩展
Rigel

Baseline
模型构建
Rigel

Intersect
模型,进行多实体识别;步骤
2.2.1
,通过构建两个向量的交集,识别两个实体之间的共享元素;步骤
2.2.2
,使用编码器将问题文本编码形成问题嵌入,作为模型编码器的
RoBERTa
输入;对于每个问题实体,将问题文本与实体提及或规范名称用分隔符标记分隔连接起来;使用分隔符标记索引的嵌入作为问题的实体特定表示;步骤
2.2.3
,获得一句话中多实体识别结果:(
a
)使用解码器对每个实体特定问题嵌入并行预测推理,根据可微知识图谱中的实体和关系获得中间答案;(
b
)根据注意力得分对每个向量中的实体进行加权;(
c
)将两个中间答案相交以获得最终答案,作为问题的回答;根据最终答案和标记实体答案之间的差异计算损失,使得编码器和解码器根据损失结果调整参数;该步骤提供一种文档级实体识别方式,实现一个新的交集操作来显式地处理多实体问题,识别两个实体之间的共享元素,实现端对端的问答,用以证明引入交集可以提高网络问题和复杂的网络问题的性能

[0007]进一步地,步骤
2.1
具体过程为:步骤
2.1.1
,定义实体关系集合表达式;步骤
2.1.2
,根据实体关系集合,构建所有预处理语料库中存在的三元组的集合;步骤
2.1.3
,基于矩阵运算构建单实体识别模型:
S2.1.3.1
,给定实体向量表达式:
S2.1.3.2
,给定问题嵌入和关系向量,计算实体向量;问题实体和预测关系在可微知识图谱中被跟踪,以返回预测答案;
S2.1.3.3
,计算跳跃注意力得分,将关系向量和实体向量进行关联,并更新实体向量;
S2.1.3.4
,通过构建损失函数,更新单实体识别模型参数

[0008]进一步地,步骤3具体过程为:步骤
3.1
,基于步骤2的结果,将源文本线性化为字符串;步骤
3.2
,添加实体暗示:当实体出现在输入句子中时,将实体及其识别名称加入到源文本之前,以特殊标记划分实体提示的末尾;步骤
3.3
,基于字符串和实体暗示,构建序列到序列模型

[0009]进一步地,步骤
3.1
具体过程为:
步骤
3.1.1
,限制目标词汇:限制目标词汇表为建模实体和关系所需的一组特殊标记,以防止模型生成未出现在源文本中的实体提及;步骤
3.1.2
,复制机制:所有其他标记使用复制机制从输入中复制,该机制的工作原理是使用源序列中的标记扩展目标词汇表,允许模型将这些标记复制到输出序列中,并随机初始化特殊标记的嵌入,与模型的其他参数一起学习;步骤
3.1.3
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种构建基于电网相关文件的知识图谱的方法,其特征在于,包括以下步骤:步骤1,搜集电网相关文件获得原始语料库,预处理原始语料库的文本,获得预处理语料库,同时预定义实体集合和关系集合,用于收集语料库中的名称;基于预定义的实体集合处理预处理语料库,获得带有标记实体答案的语料库;步骤2,基于带有标记实体答案的语料库,使用
Rigel

Intersect
模型进行多实体识别;步骤3,基于多实体识别结果,通过基于实体暗示的
seq2seq
模型进行关系提取;步骤4,构建基于
LDA

BERE
的提取模型,根据多实体识别结果和关系提取结果进行语义主题提取;步骤5,将结果进行可视化
。2.
根据权利要求1所述的构建基于电网相关文件的知识图谱的方法,其特征在于,步骤1的具体过程为:步骤
1.1
,搜集关于电力行业的相关的文件,形成原始语料库;步骤
1.2
,对原始语料库进行非文本内容剔除,使用
jieba
分词对原始语料库中的文本进行中文分词,依据分词结果对单词进行词性标注,并去除文本中常见的中文停用词,得到预处理语料库;步骤
1.3
,预定义实体集合和关系集合,基于预定义实体集合对预处理语料库进行数据标注,得到带有标记实体答案的语料库
。3.
根据权利要求2所述的构建基于电网相关文件的知识图谱的方法,其特征在于,步骤2具体过程为:步骤
2.1
,构建
Rigel

Baseline
模型进行单实体识别;所述
Rigel Baseline
模型包括一个编码器和一个解码器,使用编码器对问题进行编码,使用解码器返回可微知识图谱上关系的概率分布;步骤
2.2
,通过可微分相交运算扩展
Rigel

Baseline
模型构建
Rigel

Intersect
模型,进行多实体识别;步骤
2.2.1
,通过构建两个向量的交集,识别两个实体之间的共享元素;步骤
2.2.2
,使用编码器将问题文本编码形成问题嵌入,作为模型编码器的
RoBERTa
输入;对于每个问题实体,将问题文本与实体提及或规范名称用分隔符标记分隔连接起来;使用分隔符标记索引的嵌入作为问题的实体特定表示;步骤
2.2.3
,获得一句话中多实体识别结果:(
a
)使用解码器对每个实体特定问题嵌入并行预测推理,根据可微知识图谱中的实体和关系获得中间答案;(
b
)根据注意力得分对实体进行加权;(
c
)将两个中间答案相交以获得最终答案,作为问题的回答;根据最终答案和标记实体答案之间的差异计算损失,使得编码器和解码器根据损失结果调整参数
。4.
根据权利要求3所述的构建基于电网相关文件的知识图谱的方法,其特征在于,步骤
2.1
具体过程为:步骤
2.1.1
,定义实体关系集合表达式;步骤
2.1.2
,根据实体关系集合,构建所有预处理语料库中存在的三元组的集合;并...

【专利技术属性】
技术研发人员:王庆娟胡若云孙钢楼斐丁欣玮陈千羿陈志伟宋宛净沈艳阳黎佳慧蒋贝妮庄琛徐世予汪一帆王晓宇
申请(专利权)人:国网浙江省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1