一种基于自学习的电网知识图谱构建方法技术

技术编号:37401125 阅读:14 留言:0更新日期:2023-04-30 09:29
本发明专利技术提供的一种基于自学习的电网知识图谱构建方法,所述构建方法包括:采用bootstrapping句法模板以及远监督的方案来构建样本;基于所述样本采用pipeline的方式来进行开放知识挖掘;采用多维度低资源信息的抽取,获得抽取信息;对所述抽取信息进行融合,获得融合信息;根据所述融合信息构建电网知识图谱。解决数据+学习的自组织难题,实现知识体系构建从人工编辑到半自动构建的跨越,实现了电力知识体系的深度沉淀和自动迭代更新。力知识体系的深度沉淀和自动迭代更新。力知识体系的深度沉淀和自动迭代更新。

【技术实现步骤摘要】
一种基于自学习的电网知识图谱构建方法


[0001]本专利技术涉及电网知识图谱领域,尤其涉及一种基于自学习的电网知识图谱构建方法。

技术介绍

[0002]现有技术中电网领域数据集面临知识稀疏、知识分散等问题;具备深度知识的行业知识图谱快速工业化能力严重不足、人员投入成本不可控等问题。

技术实现思路

[0003]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种基于自学习的电网知识图谱构建方法。
[0004]根据本专利技术的一个方面,提供了一种基于自学习的电网知识图谱构建方法,所述构建方法包括:
[0005]采用bootstrapping句法模板以及远监督的方案来构建样本;
[0006]基于所述样本采用pipeline的方式来进行开放知识挖掘;
[0007]采用多维度低资源信息的抽取,获得抽取信息;
[0008]对所述抽取信息进行融合,获得融合信息;
[0009]根据所述融合信息构建电网知识图谱。
[0010]可选的,所述基于所述样本采用pipeline的方式来进行开放知识挖掘具体包括:先做关系分类判定,再对确定的关系类型进行序列标注subject及object。
[0011]可选的,所述采用多维度低资源信息的抽取,获得抽取信息具体包括:
[0012]综合运用基于电力行业适配语料的持续预训练技术、行业词汇增强技术、标签翻转主动学习技术、Positive

unlabeled半监督学习技术及少次学习技术记性资源信息抽取。
[0013]可选的,所述对所述抽取信息进行融合,获得融合信息具体包括:
[0014]采用融合深度学习语义匹配模型、基于电力词林的术语成分分析及基于MobileNet电力多模态信息匹配的消歧技术,对所述抽取信息融合。
[0015]可选的,所述多模态信息匹配具体包括:
[0016]多模态数据特征表示;
[0017]多模态数据语义关系计算。
[0018]可选的,所述多模态数据特征表示具体包括:
[0019]在对多模态数据进行关系计算前,首行需要提取多模态数据的特征表示;根据各类数据情况,采取相应的特征表示方法。
[0020]可选的,所述多模态数据语义关系计算具体包括:采用了基于多模态类型数据的细粒度上下文信息,同时实现至少3种以上不同模态数据类型之间的语义对齐和分布对齐。
[0021]本专利技术提供的一种基于自学习的电网知识图谱构建方法,所述构建方法包括:采
用bootstrapping句法模板以及远监督的方案来构建样本;基于所述样本采用pipeline的方式来进行开放知识挖掘;采用多维度低资源信息的抽取,获得抽取信息;对所述抽取信息进行融合,获得融合信息;根据所述融合信息构建电网知识图谱。解决数据+学习的自组织难题,实现知识体系构建从人工编辑到半自动构建的跨越,实现了电力知识体系的深度沉淀和自动迭代更新。
[0022]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0023]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0024]图1为本专利技术实施例提供的人机协同开放本体构建示意图;
[0025]图2为本专利技术实施例提供的多维度低资源信息抽取方法示意图。
具体实施方式
[0026]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0027]本专利技术的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
[0028]下面结合附图和实施例,对本专利技术的技术方案做进一步的详细描述。
[0029]实现电网知识图谱自学习构建技术,基于开放本体的低资源信息抽取技术,解决数据+学习的自组织难题,实现知识体系构建从人工编辑到半自动构建的跨越,实现了电力知识体系的深度沉淀和自动迭代更新。
[0030]如图1所示,本体构建方式通常有两种方式,一种是完全依赖行业专家学者的top

down构建方式,一种是大数据驱动的bottom

up构建方式。前者由行业专家根据行业知识及业务逻辑人工手动设计schema,其具有的好处是准确性、专业性都很高,但构建启动成本很高,现实中既具有行业知识又具备知识图谱知识的行业专家还是很紧缺的;后者先基于海量文本语料挖掘大量开放事实,再利用算法自动归纳本体知识,其构建成本略低,但算法精度一般不高。我们采用的是将top

down与bottom

up方法有机结合起来,在保证本体构建质量的同时尽量降低构建成本。本项目中我们采用我们通过bootstrapping句法模板以及远监督的方案来构建样本,基于样本采用pipeline的方式来进行开放知识挖掘,具体来说就是先做关系分类判定,再对确定的关系类型进行序列标注subject及object。前者采用PCNN深度模型结构,后者采用Bi

LSTM模型结构,两者除了传统的term embedding信息外都引入了逻辑positionembedding信息来刻画句法依存结构信息。通过上述方法,将本体构建成本
由周级降低为天级。
[0031]如图2所示,采用多维度低资源信息抽取解决方案,综合运用基于电力行业适配语料的持续预训练技术、行业词汇增强技术、标签翻转主动学习技术、Positive

unlabeled半监督学习技术及少次学习技术,解决电力行业无结构化实体关系抽取的小样本问题,在单知识要素数十样本规模下,抽取效果达到业界SOTA水平,其F1值可达80%+。在此基础上,采用融合深度学习语义匹配模型、基于电力词林的术语成分分析及基于MobileNet电力多模态信息匹配的消歧技术,实现对所抽取信息的融合,从而为基于电力知识图谱的智能检索及推荐等智能应用提供坚实基础。
[0032]随着企业数据的增长,文本、图像、视频、音频等数据的大量涌现,海量数据使电网企业面临的知识稀疏、知识分散的问题愈发严重,传统的仅依靠文本数据和数据库构建知识图谱已无法满足企业知识的归集与应用的需求,多模态知识图谱的构建,能够让基于知识图谱的智能服务更好地理解真实世界的数据场景,进而更好地支撑各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自学习的电网知识图谱构建方法,其特征在于,所述构建方法包括:采用bootstrapping句法模板以及远监督的方案来构建样本;基于所述样本采用pipeline的方式来进行开放知识挖掘;采用多维度低资源信息的抽取,获得抽取信息;对所述抽取信息进行融合,获得融合信息;根据所述融合信息构建电网知识图谱。2.根据权利要求1所述的一种基于自学习的电网知识图谱构建方法,其特征在于,所述基于所述样本采用pipeline的方式来进行开放知识挖掘具体包括:先做关系分类判定,再对确定的关系类型进行序列标注subject及object。3.根据权利要求1所述的一种基于自学习的电网知识图谱构建方法,其特征在于,所述采用多维度低资源信息的抽取,获得抽取信息具体包括:综合运用基于电力行业适配语料的持续预训练技术、行业词汇增强技术、标签翻转主动学习技术、Positive

unlabeled半监督学习技术及少次学习技术记性资源信...

【专利技术属性】
技术研发人员:邵晶晶王尧宋云奎沈宇红柴雁欣甘莹郭彤彤符飞虎
申请(专利权)人:南方电网数字电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1