当前位置: 首页 > 专利查询>清华大学专利>正文

电力知识图谱构建方法和装置制造方法及图纸

技术编号:28035584 阅读:26 留言:0更新日期:2021-04-09 23:17
本申请提出一种电力知识图谱构建方法和装置,涉及数据处理技术领域,其中,方法包括:获取待处理数据,获取待处理数据中领域文本,对领域文本中进行关键词抽取,获取多个候选词;对多个候选词进行评分,根据评分结果,从多个候选词确定多个领域本体;对待处理数据进行预处理,获取候选术语,对候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;获取待处理数据中每个语句的字向量和词向量,将字向量和词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据多个核心本体、多个实体和多个领域本体构建电力知识图谱。由此,实现准确有效构建电力知识图谱。

【技术实现步骤摘要】
电力知识图谱构建方法和装置
本申请涉及数据处理
,尤其涉及一种电力知识图谱构建方法和装置。
技术介绍
目前,知识图谱作为语义分析的重要支撑近年来在各行业智能分析中得到广泛应用,相关技术中,电力领域知识图谱构建中存在准确率和效率都比较低。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种电力知识图谱构建方法,以准确高效的实现了超大规模高精度电力知识图谱的建立。本申请的第二个目的在于提出一种电力知识图谱构建装置。为达上述目的,本申请第一方面实施例提出了一种电力知识图谱构建方法,包括:获取待处理数据,获取所述待处理数据中领域文本,对所述领域文本中进行关键词抽取,获取多个候选词;对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体;对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;获取所述待处理数据中每个语句的字向量本文档来自技高网...

【技术保护点】
1.一种电力知识图谱构建方法,其特征在于,包括以下步骤:/n获取待处理数据,获取所述待处理数据中领域文本,对所述领域文本中进行关键词抽取,获取多个候选词;/n对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体;/n对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;/n获取所述待处理数据中每个语句的字向量和词向量,将所述字向量和所述词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据所述多个核心本体、所述多个实体和所述多个领域本体构建电力知识图谱。/n

【技术特征摘要】
1.一种电力知识图谱构建方法,其特征在于,包括以下步骤:
获取待处理数据,获取所述待处理数据中领域文本,对所述领域文本中进行关键词抽取,获取多个候选词;
对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体;
对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体;
获取所述待处理数据中每个语句的字向量和词向量,将所述字向量和所述词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,并根据所述多个核心本体、所述多个实体和所述多个领域本体构建电力知识图谱。


2.如权利要求1所述电力知识图谱构建方法,其特征在于,所述对所述多个候选词进行评分,根据评分结果,从所述多个候选词确定多个领域本体,包括:
计算每个候选词的特征值;
获取所述每个候选的权重值;
根据所述每个候选的特征值和权重值进行加权求和,获取所述每个候选词的评分结果;
从所述多个候选词确定评分结果大于预设分数值的候选词作为所述多个领域本体。


3.如权利要求1所述电力知识图谱构建方法,其特征在于,所述对所述待处理数据进行预处理,获取候选术语,对所述候选术语过滤后进行关系抽取,获取抽取结果,并将通过验证的抽取结果作为多个核心本体,包括:
对所述待处理数据进行分词、词性标注、句法分析,选择名词短语、动词、动词短语作为所述候选术语;
对候选术语进行多个维度的评分,过滤掉得分低于预设评分阈值的候选术语,并对抽取的候选术语进行关系抽取,并将抽取结果提交审核,将通过验证的抽取结果作为多个核心本体。


4.如权利要求3所述电力知识图谱构建方法,其特征在于,所述对抽取的候选术语进行关系抽取,获取抽取结果,包括:
选取K个所述候选术语作为聚类中心;
计算每个所述候选术语与所述聚类中心的余弦相似度;
根据所述余弦相似度,对所述候选术语和所述聚类中心进行合并,并计算新聚类中心;
判断所述新聚类中心与所述聚类中心差值,在差值小于预设差值阈值,输出所述抽取结果。


5.如权利要求1所述电力知识图谱构建方法,其特征在于,所述获取所述待处理数据中每个语句的字向量和词向量,将所述字向量和所述词向量拼接后输入长短期记忆网络进行实体识别,获取多个实体,包括:
获取所述每个语句的词向量,对所述每个语句中的每一个词,获取所述每一个词的字向量;
所述字向量组成词的字向量矩阵,通过卷积神经网络对所述字向量矩阵进行卷积和池化,获取每个词的字向量;
对每个...

【专利技术属性】
技术研发人员:仇瑜唐杰刘德兵胡若云孙钢谷泓杰
申请(专利权)人:清华大学国网浙江省电力有限公司营销服务中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1