构建基于电网相关文件的知识图谱的方法技术

技术编号：39748507 阅读：11 留言：0更新日期：2023-12-17 23:46

本发明专利技术为构建基于电网相关文件的知识图谱的方法

全部详细技术资料下载

【技术实现步骤摘要】
构建基于电网相关文件的知识图谱的方法、装置及介质

[0001]本专利技术属于语言处理
，特别涉及构建基于电网相关文件的知识图谱的方法
、
装置及介质
。

技术介绍

[0002]知识图谱（
KG
）是一种结构化的
、
语义化的知识表示模型，用于描述现实世界中的实体
、
概念
、
关系和属性，并以图的形式表示它们之间的关联
。
知识图谱在许多应用领域都具有巨大的潜力，它以可视化的方式提供了信息组织
、
信息检索
、
知识管理与共享等功能
。
电力行业发展时间长
、
体量大，是国民经济重要的基础行业，基于电网相关文件构建知识图谱，可以促使相关业务人员充分理解和应用相关文本，大幅提高工作效率，对于文档级知识图谱构建具有代表意义
。
然而，由于电网相关文件信息复杂
、
涉及广泛，无法利用现有的模型构建满足实际需求的知识图谱
。
现有的模型存在如下问题：（1）实体识别受限：对于实体识别问题，特别是文档级的多实体问题难以有效识别；（2）关系提取有困难：构建知识图谱需要大量的关系抽取工作，现有技术对文档级的关系抽取难度较大；（3）知识表示有局限性：现有知识图谱广泛使用三元组（实体
、
关系
、
属性）表示知识，但这种方式难以应对文档级的多事实与主题分类的任务
。
因此...

【技术保护点】

【技术特征摘要】
1.
一种构建基于电网相关文件的知识图谱的方法，其特征在于，包括以下步骤：步骤1，搜集电网相关文件获得原始语料库，预处理原始语料库的文本，获得预处理语料库，同时预定义实体集合和关系集合，用于收集语料库中的名称；基于预定义的实体集合处理预处理语料库，获得带有标记实体答案的语料库；步骤2，基于带有标记实体答案的语料库，使用
Rigel
‑
Intersect
模型进行多实体识别；步骤3，基于多实体识别结果，通过基于实体暗示的
seq2seq
模型进行关系提取；步骤4，构建基于
LDA
‑
BERE
的提取模型，根据多实体识别结果和关系提取结果进行语义主题提取；步骤5，将结果进行可视化
。2.
根据权利要求1所述的构建基于电网相关文件的知识图谱的方法，其特征在于，步骤1的具体过程为：步骤
1.1
，搜集关于电力行业的相关的文件，形成原始语料库；步骤
1.2
，对原始语料库进行非文本内容剔除，使用
jieba
分词对原始语料库中的文本进行中文分词，依据分词结果对单词进行词性标注，并去除文本中常见的中文停用词，得到预处理语料库；步骤
1.3
，预定义实体集合和关系集合，基于预定义实体集合对预处理语料库进行数据标注，得到带有标记实体答案的语料库
。3.
根据权利要求2所述的构建基于电网相关文件的知识图谱的方法，其特征在于，步骤2具体过程为：步骤
2.1
，构建
Rigel
‑
Baseline
模型进行单实体识别；所述
Rigel Baseline
模型包括一个编码器和一个解码器，使用编码器对问题进行编码，使用解码器返回可微知识图谱上关系的概率分布；步骤
2.2
，通过可微分相交运算扩展
Rigel
‑
Baseline
模型构建
Rigel
‑
Intersect
模型，进行多实体识别；步骤
2.2.1
，通过构建两个向量的交集，识别两个实体之间的共享元素；步骤
2.2.2
，使用编码器将问题文本编码形成问题嵌入，作为模型编码器的
RoBERTa
输入；对于每个问题实体，将问题文本与实体提及或规范名称用分隔符标记分隔连接起来；使用分隔符标记索引的嵌入作为问题的实体特定表示；步骤
2.2.3
，获得一句话中多实体识别结果：（
a
）使用解码器对每个实体特定问题嵌入并行预测推理，根据可微知识图谱中的实体和关系获得中间答案；（
b
）根据注意力得分对实体进行加权；（
c
）将两个中间答案相交以获得最终答案，作为问题的回答；根据最终答案和标记实体答案之间的差异计算损失，使得编码器和解码器根据损失结果调整参数
。4.
根据权利要求3所述的构建基于电网相关文件的知识图谱的方法，其特征在于，步骤
2.1
具体过程为：步骤
2.1.1
，定义实体关系集合表达式；步骤
2.1.2
，根据实体关系集合，构建所有预处理语料库中存在的三元组的集合；并...

【专利技术属性】
技术研发人员：王庆娟，胡若云，孙钢，楼斐，丁欣玮，陈千羿，陈志伟，宋宛净，沈艳阳，黎佳慧，蒋贝妮，庄琛，徐世予，汪一帆，王晓宇，
申请(专利权)人：国网浙江省电力有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人