【技术实现步骤摘要】
构建基于电网相关文件的知识图谱的方法、装置及介质
[0001]本专利技术属于语言处理
,特别涉及构建基于电网相关文件的知识图谱的方法
、
装置及介质
。
技术介绍
[0002]知识图谱(
KG
)是一种结构化的
、
语义化的知识表示模型,用于描述现实世界中的实体
、
概念
、
关系和属性,并以图的形式表示它们之间的关联
。
知识图谱在许多应用领域都具有巨大的潜力,它以可视化的方式提供了信息组织
、
信息检索
、
知识管理与共享等功能
。
电力行业发展时间长
、
体量大,是国民经济重要的基础行业,基于电网相关文件构建知识图谱,可以促使相关业务人员充分理解和应用相关文本,大幅提高工作效率,对于文档级知识图谱构建具有代表意义
。
然而,由于电网相关文件信息复杂
、
涉及广泛,无法利用现有的模型构建满足实际需求的知识图谱
。
现有的模型存在如下问题:(1)实体识别受限:对于实体识别问题,特别是文档级的多实体问题难以有效识别;(2)关系提取有困难:构建知识图谱需要大量的关系抽取工作,现有技术对文档级的关系抽取难度较大;(3)知识表示有局限性:现有知识图谱广泛使用三元组(实体
、
关系
、
属性)表示知识,但这种方式难以应对文档级的多事实与主题分类的任务
。
因此 ...
【技术保护点】
【技术特征摘要】
1.
一种构建基于电网相关文件的知识图谱的方法,其特征在于,包括以下步骤:步骤1,搜集电网相关文件获得原始语料库,预处理原始语料库的文本,获得预处理语料库,同时预定义实体集合和关系集合,用于收集语料库中的名称;基于预定义的实体集合处理预处理语料库,获得带有标记实体答案的语料库;步骤2,基于带有标记实体答案的语料库,使用
Rigel
‑
Intersect
模型进行多实体识别;步骤3,基于多实体识别结果,通过基于实体暗示的
seq2seq
模型进行关系提取;步骤4,构建基于
LDA
‑
BERE
的提取模型,根据多实体识别结果和关系提取结果进行语义主题提取;步骤5,将结果进行可视化
。2.
根据权利要求1所述的构建基于电网相关文件的知识图谱的方法,其特征在于,步骤1的具体过程为:步骤
1.1
,搜集关于电力行业的相关的文件,形成原始语料库;步骤
1.2
,对原始语料库进行非文本内容剔除,使用
jieba
分词对原始语料库中的文本进行中文分词,依据分词结果对单词进行词性标注,并去除文本中常见的中文停用词,得到预处理语料库;步骤
1.3
,预定义实体集合和关系集合,基于预定义实体集合对预处理语料库进行数据标注,得到带有标记实体答案的语料库
。3.
根据权利要求2所述的构建基于电网相关文件的知识图谱的方法,其特征在于,步骤2具体过程为:步骤
2.1
,构建
Rigel
‑
Baseline
模型进行单实体识别;所述
Rigel Baseline
模型包括一个编码器和一个解码器,使用编码器对问题进行编码,使用解码器返回可微知识图谱上关系的概率分布;步骤
2.2
,通过可微分相交运算扩展
Rigel
‑
Baseline
模型构建
Rigel
‑
Intersect
模型,进行多实体识别;步骤
2.2.1
,通过构建两个向量的交集,识别两个实体之间的共享元素;步骤
2.2.2
,使用编码器将问题文本编码形成问题嵌入,作为模型编码器的
RoBERTa
输入;对于每个问题实体,将问题文本与实体提及或规范名称用分隔符标记分隔连接起来;使用分隔符标记索引的嵌入作为问题的实体特定表示;步骤
2.2.3
,获得一句话中多实体识别结果:(
a
)使用解码器对每个实体特定问题嵌入并行预测推理,根据可微知识图谱中的实体和关系获得中间答案;(
b
)根据注意力得分对实体进行加权;(
c
)将两个中间答案相交以获得最终答案,作为问题的回答;根据最终答案和标记实体答案之间的差异计算损失,使得编码器和解码器根据损失结果调整参数
。4.
根据权利要求3所述的构建基于电网相关文件的知识图谱的方法,其特征在于,步骤
2.1
具体过程为:步骤
2.1.1
,定义实体关系集合表达式;步骤
2.1.2
,根据实体关系集合,构建所有预处理语料库中存在的三元组的集合;并...
【专利技术属性】
技术研发人员:王庆娟,胡若云,孙钢,楼斐,丁欣玮,陈千羿,陈志伟,宋宛净,沈艳阳,黎佳慧,蒋贝妮,庄琛,徐世予,汪一帆,王晓宇,
申请(专利权)人:国网浙江省电力有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。