【技术实现步骤摘要】
电网数据管理方法及装置
本申请涉及信息化建设
,具体而言,涉及一种电网数据管理方法及装置。
技术介绍
随着科学技术的不断发展,各行业的信息化建设在逐步加快,各行业在数据管理业务及数据挖掘业务上有了更高的需求,其中尤以电力行业最为突出。目前,电力行业的信息化建设尚且处于初步阶段,在对电网系统产生的数据进行统筹管理及挖掘数据资源价值时需要工作管理人员对电网数据进行大量的人工操作,从而导致电网数据的数据管理质量及数据管理效率整体不高。
技术实现思路
为了克服现有技术中的上述不足,本申请的目的在于提供一种电网数据管理方法及装置,其能够基于预先构建出的用于抽取电网实体关系的电网实体关系抽取模型,在电网数据管理过程中对待处理文本数据进行电网实体关系抽取,以降低人工参与度,并提高针对电网数据的数据管理质量及数据管理效率。就方法而言,本申请实施例提供一种电网数据管理生成方法,所述方法包括:获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理;对预处理后的待处理文本数据进行实体识别,并根据预先构建的电网实体关系抽取模型对识别出的所有实体词进行电网实体关系抽取,其中所述电网实体关系抽取模型基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型构建形成;根据识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型。就装置而言,本申请实施例提供一种电网数据管理装置,所述装置包括:文本预处理模块,用于获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理;电网关系抽取模块,用于对预处理后的待处理文本数据进行实体识别,并根据预 ...
【技术保护点】
1.一种电网数据管理方法,其特征在于,所述方法包括:获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理;对预处理后的待处理文本数据进行实体识别,并根据预先构建的电网实体关系抽取模型对识别出的所有实体词进行电网实体关系抽取,其中所述电网实体关系抽取模型基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型构建形成;根据识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型。
【技术特征摘要】
1.一种电网数据管理方法,其特征在于,所述方法包括:获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理;对预处理后的待处理文本数据进行实体识别,并根据预先构建的电网实体关系抽取模型对识别出的所有实体词进行电网实体关系抽取,其中所述电网实体关系抽取模型基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型构建形成;根据识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型。2.根据权利要求1所述的方法,其特征在于,所述电网实体关系抽取模型的构建过程,包括:获取电网语料文本数据,并对获取到的所述电网语料文本数据进行文本预处理;对预处理后的所述电网语料文本数据中的每条语句进行实体识别,确定出每条语句中的所有实体词,及每个实体词在对应语句中的位置信息;根据预设的电网实体关系种类对所述电网语料文本数据中的所有实体词进行关系标注,得到每条语句对应的关系标注结果;根据每条语句的关系标注结果及该语句中的每个实体词的位置信息,对该语句进行向量化处理,得到每条语句对应的语句向量矩阵;将所述电网语料文本数据中的每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的电网实体关系抽取模型。3.根据权利要求2所述的方法,其特征在于,对获取到的所述电网语料文本数据进行文本预处理,包括:依次对所述电网语料文本数据进行去重处理、去噪处理、分句处理及分词处理,得到所述电网语料文本数据包括的所有语句,及每条语句包括的所有词语。4.根据权利要求2所述的方法,其特征在于,所述根据预设的电网实体关系种类在所述电网语料文本数据中的所有实体词进行关系标注,得到每条语句对应的关系标注结果,包括:针对所述电网语料文本数据中的每条语句,将该语句中的每个实体词与其他实体词依次按照每个电网实体关系种类进行关系匹配;若关系匹配成功,则将关系匹配成功的两个实体词按照对应的电网实体关系种类进行关系标注,并基于半监督学习算法将针对所述两个实体词的标注结果同步更新到所述电网语料文本数据中的其他语句处,以得到每条语句对应的关系标注结果。5.根据权利要求2所述的方法,其特征在于,所述根据每条语句的关系标注结果及该语句中每个实体词的位置信息,对该语句进行向量化处理,得到每条语句对应的语句向量矩阵,包括:针对所述电网语料文本数据中的每条语句,根据该语句的关系标注结果对该语句中的每个实体词进行词向量化处理,得到该语句中每个实体词对应的原始词向量;对该语句中每个实体词的位置信息进行向量化处理,得到该语句中每个实体词对应的位置向量;将该语句中每个实体词对应的原始词向量及位置向量进行拼接整合,得到该语句对应的语句向量矩阵。6.根据权利要求2-5中任意一项所述的方法,其特征在于,所述特征提取模型包括卷积神经网络模型及分类器模型,所述将所述电网语料文本数据中的每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的电网实体关系抽取模型,包括:根据所述电网语料文本数据中各语句的排列顺序,依次将每条语句对应的语句向量矩阵输入到所述卷积神经网络模型中,并训练所述卷积神经网络模型通过卷积层得到与该语句向量矩阵对应的关系卷积向量;训练所述卷积神经网络模型通过池化层对该语句对应的关系卷积向量进行三段式划分,并提取出每段关系卷积向量中的最大池化...
【专利技术属性】
技术研发人员:华召云,张淑娟,王潇,李周,蔡翔,陈清萍,袁方,王萍,钱光超,王鑫,梅峰,陈政波,褚大可,江樱,张福华,
申请(专利权)人:国家电网有限公司,国网安徽省电力有限公司电力科学研究院,国网浙江省电力有限公司信息通信分公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。