一种电网标准知识抽取方法技术

技术编号:36348970 阅读:46 留言:0更新日期:2023-01-14 18:03
本发明专利技术提供了一种电网标准知识抽取方法,属于电网数据技术领域,该本发明专利技术电网标准知识抽取方法,获取数据更新,引入的各类形态的原始数据,以本体构建系统定义知识生产目标,输出数据抽取模型;根据数据抽取模型对不同的原始数据进行数据抽取处理,得到各类型的电网数据;将各类型的电网数据转换形成知识图谱数据,并建立实体以及实体间关系。通过结构化、非结构化等的数据接入,完成来源库数据到知识图谱的自动化构建,提供结构化数据入图能力。通过集合知识组织、存储、提取、推理方法和工具为一体,节省了专业技术人员大量的时间,为电力调度、设备管理、数据交互、业务查询等知识更迭迅速提供了基础。迅速提供了基础。迅速提供了基础。

【技术实现步骤摘要】
一种电网标准知识抽取方法


[0001]本专利技术涉及电网数据
,具体而言,涉及一种电网标准知识抽取方法。

技术介绍

[0002]传统的知识组织和管理方式已经无法满足当前电力系统的需要。当前,以知识表示和知识推理为基础的知识库在电力系统中得到了较多应用,如:结合传统专家系统的智能决策系统,故障定位系统和输电网规划决策等。
[0003]但是,这些知识库大多依赖于专家提取、整理并将数据以图标形式存储于数据库的传统知识管理方式,其所能够存储的知识结构较为单一,且每次更新都需要专业技术人员花费大量时间。特别对于电力调度、设备管理、数据交互、业务查询等知识更迭迅速的领域,现有的知识管理方式已经严重滞后于系统的发展需要。
[0004]电力系统亟需新型、自动、智能的知识组织、存储、提取、推理方法和工具,把海量离散的信息点聚合成为语义网络,引入业界成熟稳定的图谱构建功能体系能让该环节事半功倍。为此,我们提出一种电网标准知识抽取方法,以解决上述技术背景中的问题。

技术实现思路

[0005]为了弥补以上不足,本专利技术提供了一种电网标准知识抽取方法,旨在改善现有技术电网知识抽取的问题。
[0006]本专利技术是这样实现的:一种电网标准知识抽取方法,包括
[0007]获取数据更新,引入的各类形态的原始数据,以本体构建系统定义知识生产目标,输出数据抽取模型;
[0008]根据数据抽取模型对不同的原始数据进行数据抽取处理,得到各类型的电网数据;
[0009]将各类型的电网数据转换形成知识图谱数据,并建立实体以及实体间关系。
[0010]在本专利技术的一种优选技术方案中,所述本体构建系统在技术架构上遵从标准化数字加工与标准招标技术规范,进行标准数字化加工及标准知识库构建及标准知识图谱构建工具模型与构建过程支持服务。
[0011]在本专利技术的一种优选技术方案中,所述数据模型的过程,包括步骤:通过机器学习算法处理数据更新结果,训练数据抽取模型。
[0012]在本专利技术的一种优选技术方案中,所述数据抽取模型的抽取方式包括章条抽取、术语抽取、指标抽取、公式抽取、图片抽取和表格抽取。
[0013]章条:对每个层级的章条进行抽取与加工,支持章条关联嵌套,即分层级处理,父层级章条可包含子层级章条。
[0014]术语:支持对术语进行抽取,抽取结果包含术语名称、术语定义等。
[0015]指标与指标值:对标准内的指标(包含文字型条款、数值型)进行抽取,以key

value形式输出。
[0016]公式:对标准内的公式进行抽取,需包含公式名称、具体公式。
[0017]图片:对标准内的非纯文字图片进行抽取,输出图片资源,需包含图片名称、图片资源文件。
[0018]表格:对标准内的表格进行抽取,抽取结果为支持抽取为图片与excel表两类,包含表名(如有)、表头(如有)、行数据、列数据等。
[0019]在本专利技术的一种优选技术方案中,所述各类型的电网数据的知识抽取包括结构化抽取、半结构化抽取和非结构化抽取,利用结构化抽取、半结构化抽取和非结构化抽取转换形成知识图谱构建。
[0020]在本专利技术的一种优选技术方案中,所述知识图谱具体功能包括:支持从自由文本中识别实体、关系、属性,可通过人工干预模型的方式,优化自由文本抽取的准确率;支持从结构化数据源中直接转化数据,与知识图谱schema映射对齐,自动生产知识图谱数据;支持自定义知识图谱抽取模型,包括调优模型、优化词表、定义模板等;支持机器学习模型、机器规则及人工方式进行实体、属性、关系的映射、清洗、融合、归一、建边、补全;图谱知识生产全流程支持可视化、白盒化以及审核干预。
[0021]在本专利技术的一种优选技术方案中,还包括实体抽取模块和关联抽取模块。
[0022]在本专利技术的一种优选技术方案中,所述实体抽取模块是从文本数据中抽取数据中的实体,该实体抽取模块由三个小模块组成,三个小模块分别是三个模型,即Transformer模型、BiGRU模型、CRF模型,通过三个部分的各个模型的功能最后完成实体抽取的任务。
[0023]在系统的设计思路中,将命名实体识别为序列标注任务进行处理。其总体思路则是将给定的一个序列,对其中的每一个元素做相应的标记或者说是给其中的每一个元素打一个标签,这个标签这是BIOES中的一个标签。对于其中是实体的元素则根据标签作为实体处理,而对于非实体的标签则,将其中的O标签作为对应实体的属性,之后再存储的过程中进行相应的去重操作。
[0024]在本专利技术的一种优选技术方案中,所述关联抽取模块是判定实体与实体之间的一个关系,先对实体进行抽取,然后接着是对实体间的关系进行判定,借用在实体抽取的BiGRU模型,然后再结合另外的Attention,对实体间的关系进行抽取,其中BiGRU部分得到句子的相应的label序列,然后利用Attention进行相关的关系多分类的思路进行关系抽取。
[0025]在本专利技术的一种优选技术方案中,所述Attention中多分类的任务通过softmax分类器进行预测句子的分类标签。
[0026]本专利技术的有益效果是:本专利技术电网标准知识抽取方法,获取数据更新,引入的各类形态的原始数据,以本体构建系统定义知识生产目标,输出数据抽取模型;根据数据抽取模型对不同的原始数据进行数据抽取处理,得到各类型的电网数据;将各类型的电网数据转换形成知识图谱数据,并建立实体以及实体间关系。知识提取提供针对不同数据源的知识提取服务,所有知识提取服务均以任务的形式在后台进行周期性的运行,保证各类外部数据的持续接入。通过结构化、非结构化等的数据接入,完成来源库数据到知识图谱的自动化构建,提供结构化数据入图能力。通过集合知识组织、存储、提取、推理方法和工具为一体,把海量离散的信息点聚合成为语义网络,节省了专业技术人员大量的时间,为电力调度、设备管理、数据交互、业务查询等知识更迭迅速提供了基础。
附图说明
[0027]为了更清楚地说明本专利技术实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0028]图1是本专利技术实施方式提供的电网标准知识抽取方法的流程示意图;
[0029]图2为本专利技术实施方式提供的知识抽取系统组成示意图;
[0030]图3为本专利技术实施方式提供的实体抽取模块模型结构示意图。
具体实施方式
[0031]为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电网标准知识抽取方法,其特征在于,包括获取数据更新,引入的各类形态的原始数据,以本体构建系统定义知识生产目标,输出数据抽取模型;根据数据抽取模型对不同的原始数据进行数据抽取处理,得到各类型的电网数据;将各类型的电网数据转换形成知识图谱数据,并建立实体以及实体间关系。2.根据权利要求1所述的电网标准知识抽取方法,其特征在于,所述本体构建系统在技术架构上遵从标准化数字加工与标准招标技术规范,进行标准数字化加工及标准知识库构建及标准知识图谱构建工具模型与构建过程支持服务。3.根据权利要求1所述的电网标准知识抽取方法,其特征在于,所述数据模型的过程,包括步骤:通过机器学习算法处理数据更新结果,训练数据抽取模型。4.根据权利要求1所述的电网标准知识抽取方法,其特征在于,所述数据抽取模型的抽取方式包括章条抽取、术语抽取、指标抽取、公式抽取、图片抽取和表格抽取。5.根据权利要求1所述的电网标准知识抽取方法,其特征在于,所述各类型的电网数据的知识抽取包括结构化抽取、半结构化抽取和非结构化抽取,利用结构化抽取、半结构化抽取和非结构化抽取转换形成知识图谱构建。6.根据权利要求5所述的电网标准知识抽取方法,其特征在于,所述知识图谱具体功能包括:支持从自由文本中识别实体、关系、属性,可通过人工干预模型的方式,优化自由文本抽取的准确率;支持从结构化数据源中直接...

【专利技术属性】
技术研发人员:段勇涂亮林正平周育忠王宏
申请(专利权)人:南方电网科学研究院有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1