System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能的,特别是涉及一种构建电力领域科技知识图谱的方法、装置、设备及介质。
技术介绍
1、随着科学技术的快速发展,企业对于电力科技项目投入也不断增加,为了高效利用电力科技项目,需要运用先进的数字化手段,对科研项目数据进行科学精细管理,从而提高科研管理智慧化运营与成果知识服务水平。
2、目前,通常构建电力领域的知识图谱对科研项目数据进行管理,但现有的电力领域知识图谱大都只能应用于具体的应用服务中,例如电力运检或电力营销,导致通用性较低,无法实现整个电力系统中的各个应用服务。
技术实现思路
1、本申请提供了一种构建电力领域科技知识图谱的方法、装置、设备及介质,利用电力领域科技语料获得实体向量,并根据实体向量将来自不同知识库或数据源的知识进行融合,形成语义更加丰富的电力领域科技知识图谱,从而实现整个电力系统中的各个应用服务。
2、第一方面,本申请提供了一种构建电力领域科技知识图谱的方法,该方法包括:
3、根据电力基础数据,获得电力领域科技语料,所述电力基础数据来源于历史电力领域科技项目数据和互联网;
4、根据电力领域科技语料、知识模型和实体关系抽取模型进行知识抽取,获得电力领域科技术语实体数据,所述电力领域科技术语实体数据包括实体对象和实体关系,所述知识模型基于多个预训练模型进行微调后对比择优获得的,所述预训练模型为训练完成的置换语言模型,所述实体关系抽取模型为训练完成的对比学习的远程监督关系抽取模型;
5、根据电力
6、根据实体向量对所述实体对象进行知识融合,获得融合后的实体对象,所述知识融合包括实体对齐和实体消歧;
7、根据电力领域科技术语实体数据和融合后的实体对象,构建电力领域科技知识图谱。
8、可选地,根据电力基础数据,获得电力领域科技语料,包括:
9、对电力基础数据进行预处理,获得术语词汇数据集;
10、根据n-gram语言模型对术语词汇数据集进行筛选和标注,获得电力领域科技语料。
11、可选地,根据电力领域科技语料、知识模型和实体关系抽取模型进行知识抽取,获得电力领域科技术语实体数据,包括:
12、根据电力领域科技语料和知识模型进行实体抽取,获得电力领域科技术语实体数据中的实体对象;
13、根据实体对象和实体关系抽取模型进行关系抽取,获得电力领域科技术语实体数据中的实体关系。
14、可选地,多个预训练模型的获得过程,包括:
15、将历史电力领域科技语料划分为训练数据集和验证数据集;
16、利用训练数据集对初始模型进行训练,并利用验证数据集对训练后的初始模型进行验证,获得多个预训练模型,所述多个预训练模型为不同类型的置换语言模型。
17、可选地,知识模型的获得过程,包括:
18、对多个预训练模型进行微调,获得多个预训练模型对应的微调结果,所述微调为根据历史电力领域科技语料对多个预训练模型进行分类检测;
19、将多个预训练模型对应的微调结果进行降序排序,并将排序最高的微调结果对应的预训练模型作为知识模型。
20、可选地,实体关系抽取模型的获得过程,包括:
21、根据历史实体对象,构建正负实例,所述历史实体对象为历史电力领域科技语料利用知识模型获得的;
22、根据正负实例对对比学习的远程监督关系抽取模型进行训练,获得实体关系抽取模型。
23、可选地,翻译模型的获得过程包括:
24、将历史电力领域科技语料输入到词向量模型进行训练,获得字向量矩阵;
25、根据历史电力领域科技术语实体数据,构建正样本集和负样本集,所述历史电力领域科技术语实体数据为历史电力领域科技语料利用知识模型和实体关系抽取模型获得的;
26、根据正样本集、负样本集和字向量矩阵,获得正样本集和负样本集对应的字向量;
27、将正样本集和负样本集输入到transe模型中,获得正样本集和负样本集对应的实体向量;
28、将实体向量和字向量进行融合,获得高维特征向量;
29、根据高维特征向量分别计算正样本集和负样本集对应的距离分数,并将正样本集和负样本集对应的距离分数迭代计算transe模型的损失函数;
30、将损失函数作为优化目标,对transe模型进行迭代训练,并将训练完成的transe模型作为翻译模型。
31、可选地,根据实体向量对所述实体对象进行知识融合,获得融合后的实体对象,包括:
32、利用实体向量和mugnn模型对实体对象进行实体对齐,以将不同知识库中相同命名的实体对象进行链接;
33、根据上下文语义信息特征对实体对象进行实体消歧,以将不同知识库中相同命名的实体对象的语义进行统一。
34、第二方面,本申请提供了一种构建电力领域科技知识图谱的装置,该装置包括:
35、获得单元,用于根据电力基础数据,获得电力领域科技语料,所述电力基础数据来源于历史电力领域科技项目数据和互联网;
36、知识抽取单元,用于根据电力领域科技语料、知识模型和实体关系抽取模型进行知识抽取,获得电力领域科技术语实体数据,所述电力领域科技术语实体数据包括实体对象和实体关系,所述知识模型基于多个预训练模型进行微调后对比择优获得的,所述预训练模型为训练完成的置换语言模型,所述实体关系抽取模型为训练完成的对比学习的远程监督关系抽取模型;
37、知识表示单元,用于根据电力领域科技术语实体数据和翻译模型进行知识表示,获得实体向量,所述翻译模型为训练完成的transe模型;
38、知识融合单元,用于所述实体向量对实体对象进行知识融合,获得融合后的实体对象,所述知识融合包括实体对齐和实体消歧;
39、构建单元,用于根据电力领域科技术语实体数据和融合后的实体对象,构建电力领域科技知识图谱。
40、可选地,获得单元具体用于:
41、对电力基础数据进行预处理,获得术语词汇数据集;
42、根据n-gram语言模型对术语词汇数据集进行筛选和标注,获得电力领域科技语料。
43、可选地,知识抽取单元具体用于:
44、根据电力领域科技语料和知识模型进行实体抽取,获得电力领域科技术语实体数据中的实体对象;
45、根据实体对象和实体关系抽取模型进行关系抽取,获得电力领域科技术语实体数据中的实体关系。
46、可选地,该装置还包括:
47、获得预训练模型单元,用于将历史电力领域科技语料划分为训练数据集和验证数据集;用于利用训练数据集对初始模型进行训练,并所述验证数据集对训练后的初始模型进行验证,获得多个预训练模型,所述多个预训练模型为不同类型的置换语本文档来自技高网...
【技术保护点】
1.一种构建电力领域科技知识图谱的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据电力基础数据,获得电力领域科技语料,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述电力领域科技语料、知识模型和实体关系抽取模型进行知识抽取,获得电力领域科技术语实体数据,包括:
4.根据权利要求1所述的方法,其特征在于,所述多个预训练模型的获得过程,包括:
5.根据权利要求4所述的方法,其特征在于,所述知识模型的获得过程,包括:
6.根据权利要求1所述的方法,其特征在于,所述实体关系抽取模型的获得过程,包括:
7.根据权利要求1所述的方法,其特征在于,所述翻译模型的获得过程包括:
8.根据权利要求1所述的方法,其特征在于,所述根据所述实体向量对所述实体对象进行知识融合,获得融合后的实体对象,包括:
9.一种构建电力领域科技知识图谱的装置,其特征在于,所述装置包括:
10.一种电子设备,其特征在于,其特征在于,所述设备包括存储器和处理器,所述处
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-8任意一项所述的方法。
...【技术特征摘要】
1.一种构建电力领域科技知识图谱的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据电力基础数据,获得电力领域科技语料,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述电力领域科技语料、知识模型和实体关系抽取模型进行知识抽取,获得电力领域科技术语实体数据,包括:
4.根据权利要求1所述的方法,其特征在于,所述多个预训练模型的获得过程,包括:
5.根据权利要求4所述的方法,其特征在于,所述知识模型的获得过程,包括:
6.根据权利要求1所述的方法,其特征在于,所述实体关系抽取模型的获得过程,包括:
【专利技术属性】
技术研发人员:王一竹,张栋栋,刘玉玺,杨强,于海亮,陈宜亮,刘沿娟,蒋顾杰,赵克生,张宏烨,张泽宇,
申请(专利权)人:北京中电普华信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。