一种用电安全业务知识图谱构建方法技术

技术编号:36894709 阅读:17 留言:0更新日期:2023-03-15 22:21
本发明专利技术提供了一种用电安全业务知识图谱构建方法,包括如下步骤:

【技术实现步骤摘要】
一种用电安全业务知识图谱构建方法


[0001]本专利技术涉及一种用电安全业务知识图谱构建方法。

技术介绍

[0002]当前,传统的实体识别的算法是基于规则、无监督学习或基于特征的有监督学习,以上三种类型的传统方法,对于新领域的通用性相对较差,例如,在基于规则的方法,当特定领域的规则以及不完全的字典,会导致命名实体识别较低,且类似系统难以迁移应用到其他领域中,通用性较差,且会存在流水线类模型中模块的误差传播,影响最后结果的产出,对整个识别系统的准确率的影响较大,对隐患内容的排查不到位,会严重影响重要客户对电网的评价以及电力企业的经济效益。
[0003]典型如申请号为CN202111117993.7的中国专利技术专利公开的基于深度学习的政务领域知识图谱自动化构建方法和装置,在实际应用中就存在上述问题,无法有效融合多数据源的结构化和非结构化数据,不能实现非结构化数据的有效应用。

技术实现思路

[0004]为解决上述技术问题,本专利技术提供了一种用电安全业务知识图谱构建方法,该用电安全业务知识图谱构建方法能实现融合多数据源的结构化和非结构化数据,并实现非结构化数据的有效应用,丰富用户用电风险评价指标体系,利用深度学习非线性的特点。
[0005]本专利技术通过以下技术方案得以实现。
[0006]本专利技术提供的一种用电安全业务知识图谱构建方法,包括如下步骤:
[0007]①
构建本体:通过梳理领域知识、电力系统术语词典、专家的人工经验作为本体构建的基础,构建专有词典数据;
[0008]②
信息抽取:使用联合模型将实体识别模块和实体关系分类模块整合到一个模型内进行训练;
[0009]③
特征捕获:运用双向循环神经网络捕获上下文特征;
[0010]④
解码预测:运用RNN模型作为预测标签的解码器,对整个模型的输入预测相应的标签序列;
[0011]⑤
添加规则:基于领域专家经验设置规则或者模式添加到模型中;
[0012]⑥
关系分类:针对实体抽取出的实体对,在当前句子对应的依存句法树中找到能够覆盖该实体对的最小依存句法树,并采用依存树模型生成该子树对应的向量表示并进行SoftMax关系分类;
[0013]⑦
合并融合:基于实体属性相似度完成实体对齐以及知识融合。
[0014]所述步骤

之前,还包括步骤:
[0015]字词分析:运用预训练的语言表征模型将规范格式的专有词典数据从原始输入文本转换为向量形式。
[0016]所述双向循环神经网络为BI

LSTM双向循环神经网络。
[0017]所述依存树模型为TreeLSTM模型。
[0018]所述步骤

之前,还包括步骤:
[0019]初步整理:将专有词典数据中不同类型、不同格式的数据初步整理为规范格式。
[0020]所述预训练的语言表征模型为BERT模型。
[0021]所述步骤

中,在整合后的模型中,实体识别模块和实体关系分类模块,二者共享底层特征、联合二者的损失值。
[0022]所述步骤

中,是对多个数据源进行知识抽取后的三元组数据进行对齐合并。
[0023]本专利技术的有益效果在于:能实现融合多数据源的结构化和非结构化数据,并实现非结构化数据的有效应用,丰富用户用电风险评价指标体系,利用深度学习非线性的特点,从输入到输出建立非线性的映射,提升用户用电安全风险评估体系准确性,辅助制定用户风险评价体系和用电检查计划方案的自动生成等。
附图说明
[0024]图1是本专利技术的流程图。
具体实施方式
[0025]下面进一步描述本专利技术的技术方案,但要求保护的范围并不局限于所述。
[0026]实施例1
[0027]如图1所示的一种用电安全业务知识图谱构建方法,包括如下步骤:
[0028]①
构建本体:通过梳理领域知识、电力系统术语词典、专家的人工经验作为本体构建的基础,构建专有词典数据;
[0029]②
信息抽取:使用联合模型将实体识别模块和实体关系分类模块整合到一个模型内进行训练;
[0030]③
特征捕获:运用双向循环神经网络捕获上下文特征;
[0031]④
解码预测:运用RNN模型作为预测标签的解码器,对整个模型的输入预测相应的标签序列;
[0032]⑤
添加规则:基于领域专家经验设置规则或者模式添加到模型中;
[0033]⑥
关系分类:针对实体抽取出的实体对,在当前句子对应的依存句法树中找到能够覆盖该实体对的最小依存句法树,并采用依存树模型生成该子树对应的向量表示并进行SoftMax关系分类;
[0034]⑦
合并融合:基于实体属性相似度完成实体对齐以及知识融合。
[0035]实施例2
[0036]基于实施例1,所述步骤

之前,还包括步骤:
[0037]字词分析:运用预训练的语言表征模型将规范格式的专有词典数据从原始输入文本转换为向量形式。
[0038]实施例3
[0039]基于实施例1,所述双向循环神经网络为BI

LSTM双向循环神经网络。
[0040]实施例4
[0041]基于实施例1,所述依存树模型为TreeLSTM模型。
[0042]实施例5
[0043]基于实施例1,所述步骤

之前,还包括步骤:
[0044]初步整理:将专有词典数据中不同类型、不同格式的数据初步整理为规范格式。
[0045]实施例6
[0046]基于实施例2,所述预训练的语言表征模型为BERT模型。
[0047]实施例7
[0048]基于实施例1,所述步骤

中,在整合后的模型中,实体识别模块和实体关系分类模块,二者共享底层特征、联合二者的损失值。
[0049]实施例8
[0050]基于实施例1,所述步骤

中,是对多个数据源进行知识抽取后的三元组数据进行对齐合并。
[0051]实施例9
[0052]基于上述实施例,具体包括以下步骤:
[0053]步骤一、知识图谱构建的第一步要完成图谱本体的设计和构建,通过梳理领域知识、电力系统术语词典、专家的人工经验等作为本体构建的基础,结合客户用电安全业务知识来完善知识图谱的构建,最终获得实体类别、类别之间的关系、实体包含的属性定义;
[0054]电力系统术语词典构建是知识图谱工作的基础且重要的一步,完整准确的分词是中文分词的难点以及重点,是很多下游文本任务的重要基础工作,但大多数的中文分词技术都是基于通用领域的分词词典,这会导致电力系统的一些专有词汇无法分为一个词语,例如

一户停电本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用电安全业务知识图谱构建方法,其特征在于:包括如下步骤:

构建本体:通过梳理领域知识、电力系统术语词典、专家的人工经验作为本体构建的基础,构建专有词典数据;

信息抽取:使用联合模型将实体识别模块和实体关系分类模块整合到一个模型内进行训练;

特征捕获:运用双向循环神经网络捕获上下文特征;

解码预测:运用RNN模型作为预测标签的解码器,对整个模型的输入预测相应的标签序列;

添加规则:基于领域专家经验设置规则或者模式添加到模型中;

关系分类:针对实体抽取出的实体对,在当前句子对应的依存句法树中找到能够覆盖该实体对的最小依存句法树,并采用依存树模型生成该子树对应的向量表示并进行SoftMax关系分类;

合并融合:基于实体属性相似度完成实体对齐以及知识融合。2.如权利要求1所述的用电安全业务知识图谱构建方法,其特征在于:所述步骤

之前,还包括步骤:字词分析...

【专利技术属性】
技术研发人员:李金灿杨霞琴王冰黄燕李佩张君陈远梁耀元
申请(专利权)人:广西电网有限责任公司梧州供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1