一种电网运行日志的信息提取方法及系统技术方案

技术编号:21116885 阅读:16 留言:0更新日期:2019-05-16 09:20
本发明专利技术提供了一种电网运行日志的信息提取方法及系统,该方法包括:(1)获取待提取的特定标签,并将待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;(2)将待提取的特定标签词向量以及从多个电网运行日志提取的多个词向量输入至语义提取模型,得到与待提取的特定标签重叠率超过预设阈值的至少一个词向量;(3)将至少一个词向量输入至分类模型中,得到至少一个词向量分别对应的电网运行日志的标签类型;(4)基于至少一个词向量分别对应的电网运行日志的标签类型,确定与待提取的特定标签对应的电网运行日志。本发明专利技术方法提高了工作人员从电网运行日志中提取信息的效率。

【技术实现步骤摘要】
一种电网运行日志的信息提取方法及系统
本专利技术涉及电网自动化调度
,具体而言,涉及一种电网运行日志的信息提取方法及系统。
技术介绍
现有技术中,电网运行日志是电网调度信息化的重要组成部分,其主要记录了电网运行情况信息,可以利用该信息来分析电网系统的调度过程,还可以根据该信息清楚地监控电网的运行情况。目前,在日志记录过程中,不同调度员的理解和撰写方式存在较大差异,对同一事件的记录方式和描述侧重点有所不同,并且电网运行日志系统记录下的日志多以非结构化的方式记录,并以文本的形式存储在数据库中。当工作人员需要查找某一类特定信息(例如故障、检修、缺陷、气象等)时,需要查阅所有的电网运行日志来获取想要的信息。由于电网运行日志系统每天都会产生大量调度运行日志和监控运行日志,因此,工作人员在查找所需信息时,工作量会很大,并且工作效率很低。
技术实现思路
本专利技术目的在于提供一种电网运行日志的信息提取方法及系统,以提高从电网运行日志中提取信息的效率。为实现上述专利技术目的,本专利技术提供了一种电网运行日志的信息提取方法,该方法包括以下步骤:(1)获取待提取的特定标签,并将所述待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;(2)将所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量;(3)将所述至少一个词向量输入至所述分类模型中,得到所述至少一个词向量分别对应的电网运行日志所述标签类型;(4)基于所述至少一个词向量分别对应的电网运行日志所述标签类型,确定与所述待提取的特定标签对应的电网运行日志。在上述一种电网运行日志的信息提取方法中,所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签重叠率超过预设阈值的至少一个词向量之后,还包括:建立二维语义空间坐标系;将所述至少一个词向量分别输入至关系模型中,将所述至少一个词向量中的每一个词向量在所述二维语义空间坐标系中进行展示。在上述一种电网运行日志的信息提取方法中,所述语义提取模型通过以下训练方式得到:获取第一训练样本集,所述第一训练样本集包括多个电网运行日志样本,每个电网运行日志样本带有对应的标签;从第一训练样本集中获取N个带有对应的标签的电网运行日志样本,并获取特定标签;从所述N个带有对应的标签的电网运行日志样本中提取多个词向量样本,并且将所述特定标签进行词向量转换,得到所述特定标签的词向量样本;将所述多个词向量样本和所述特定标签的词向量样本输入到待训练语义提取模型中,得到本轮训练过程得到的第一检测结果;基于所述本轮训练过程得到的第一检测结果以及预设的第一理论结果,计算本轮训练的误差值;当计算出的误差值大于设定值,对所述待训练语义提取模型的模型参数进行调整,并利用调整后的所述待训练语义提取模型进行下一轮训练过程,直至计算出的误差值不大于所述设定值时,确定训练完成。在上述一种电网运行日志的信息提取方法中,通过以下训练方式得到所述分类模型:获取第二训练样本集,所述第二训练样本集包括带有不同标签的多个词向量样本;将所述第二训练样本集中所述多个词向量样本中的i个词向量样本输入至待训练分类模型中,得到本轮训练过程得到的第二检测结果;基于所述本轮训练过程得到的第二检测结果,当所述第二检测结果小于所述待训练分类模型预设的准确率时,对所述待训练分类模型的模型参数进行调整,并利用调整后的所述待训练分类模型进行下一轮训练过程,直至计算出的第二检测结果不小于所述待训练分类模型预设的准确率时,确定训练完成。在上述一种电网运行日志的信息提取方法中,将第二训练样本集中的i个词向量样本输入至待训练分类模型中,包括:从所述第二训练样本集获取任一带有标签的选定词向量样本;将所述选定词向量样本以及所述选定词向量样本之前的i-1个词向量样本输入至所述待训练分类模型中,得到第一选定词向量;以及,将所述选定词向量样本以及所述选定词向量样本之后的i-1个词向量样本输入至所述待训练分类模型中,得到第二选定词向量;将所述第一选定词向量与所述第二选定词向量进行拼接得到第三选定词向量,将所述第三选定词向量输入到所述待训练分类模型中。为实现上述的专利技术目的,本专利技术还提供了一种电网运行日志的信息提取系统,所述系统包括:获取模块,用于获取待提取的特定标签,并将所述待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;提取模块,用于将所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量;分类模块,用于将所述至少一个词向量输入至所述分类模型中,得到所述至少一个词向量分别对应的电网运行日志所述标签类型;确定模块,用于基于所述至少一个词向量分别对应的电网运行日志所述标签类型,确定与所述待提取的特定标签对应的电网运行日志;以及,计算存储设备,该设备包括处理器、存储器和总线,该设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行存储器中存储的执行指令,使获取模块、提取模块、分类模块、确定模块实现各自的功能。上述一种电网运行日志的信息提取系统中,还包括:创建模块,用于建立二维语义空间坐标系;展示模块,用于将所述至少一个词向量分别输入至关系模型中,将所述至少一个词向量中的每一个词向量在所述二维语义空间坐标系中进行展示。上述一种电网运行日志的信息提取系统中,还包括语义提取模型训练模块,该模块用于:获取第一训练样本集,所述第一训练样本集包括多个电网运行日志样本,每个电网运行日志样本带有对应的标签;从第一训练样本集中获取N个带有对应的标签的电网运行日志样本,并获取特定标签;从所述N个带有对应的标签的电网运行日志样本中提取多个词向量样本,并且将所述特定标签进行词向量转换,得到所述特定标签的词向量样本;将所述多个词向量样本和所述特定标签的词向量样本输入到待训练语义提取模型中,得到本轮训练过程得到的第一检测结果;基于所述本轮训练过程得到的第一检测结果以及预设的第一理论结果,计算本轮训练的误差值;当计算出的误差值大于设定值,对所述待训练语义提取模型的模型参数进行调整,并利用调整后的所述待训练语义提取模型进行下一轮训练过程,直至计算出的误差值不大于所述设定值时,确定训练完成。上述一种电网运行日志的信息提取系统中,还包括分类模型训练模块,该模块用于:获取第二训练样本集,所述第二训练样本集包括带有不同标签的多个词向量样本;将所述第二训练样本集中所述多个词向量样本中的i个词向量样本输入至待训练分类模型中,得到本轮训练过程得到的第二检测结果;基于所述本轮训练过程得到的第二检测结果,当所述第二检测结果小于所述待训练分类模型预设的准确率时,对所述待训练分类模型的模型参数进行调整,并利用调整后的所述待训练分类模型进行下一轮训练过程,直至计算出的第二检测结果不小于所述待训练分类模型预设的准确率时,确定训练完成。上述一种电网运行日志的信息提取系统中,所述分类模型训练模块,具体用于:从本文档来自技高网...

【技术保护点】
1.一种电网运行日志的信息提取方法,其特征在于,所述方法包括以下步骤:(1)获取待提取的特定标签,并将所述待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;(2)将所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量;(3)将所述至少一个词向量输入至所述分类模型中,得到所述至少一个词向量分别对应的电网运行日志所述标签类型;(4)基于所述至少一个词向量分别对应的电网运行日志所述标签类型,确定与所述待提取的特定标签对应的电网运行日志。

【技术特征摘要】
1.一种电网运行日志的信息提取方法,其特征在于,所述方法包括以下步骤:(1)获取待提取的特定标签,并将所述待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;(2)将所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量;(3)将所述至少一个词向量输入至所述分类模型中,得到所述至少一个词向量分别对应的电网运行日志所述标签类型;(4)基于所述至少一个词向量分别对应的电网运行日志所述标签类型,确定与所述待提取的特定标签对应的电网运行日志。2.根据权利要求1所述的一种电网运行日志的信息提取方法,其特征在于,所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签重叠率超过预设阈值的至少一个词向量之后,还包括:建立二维语义空间坐标系;将所述至少一个词向量分别输入至关系模型中,将所述至少一个词向量中的每一个词向量在所述二维语义空间坐标系中进行展示。3.根据权利要求1所述的一种电网运行日志的信息提取方法,其特征在于,所述语义提取模型通过以下训练方式得到:获取第一训练样本集,所述第一训练样本集包括多个电网运行日志样本,每个电网运行日志样本带有对应的标签;从第一训练样本集中获取N个带有对应的标签的电网运行日志样本,并获取特定标签;从所述N个带有对应的标签的电网运行日志样本中提取多个词向量样本,并且将所述特定标签进行词向量转换,得到所述特定标签的词向量样本;将所述多个词向量样本和所述特定标签的词向量样本输入到待训练语义提取模型中,得到本轮训练过程得到的第一检测结果;基于所述本轮训练过程得到的第一检测结果以及预设的第一理论结果,计算本轮训练的误差值;当计算出的误差值大于设定值,对所述待训练语义提取模型的模型参数进行调整,并利用调整后的所述待训练语义提取模型进行下一轮训练过程,直至计算出的误差值不大于所述设定值时,确定训练完成。4.根据权利要求1所述的一种电网运行日志的信息提取方法,其特征在于,通过以下训练方式得到所述分类模型:获取第二训练样本集,所述第二训练样本集包括带有不同标签的多个词向量样本;将所述第二训练样本集中所述多个词向量样本中的i个词向量样本输入至待训练分类模型中,得到本轮训练过程得到的第二检测结果;基于所述本轮训练过程得到的第二检测结果,当所述第二检测结果小于所述待训练分类模型预设的准确率时,对所述待训练分类模型的模型参数进行调整,并利用调整后的所述待训练分类模型进行下一轮训练过程,直至计算出的第二检测结果不小于所述待训练分类模型预设的准确率时,确定训练完成。5.根据权利要求4所述的一种电网运行日志的信息提取方法,其特征在于,将第二训练样本集中的i个词向量样本输入至待训练分类模型中,包括:从所述第二训练样本集获取任一带有标签的选定词向量样本;将所述选定词向量样本以及所述选定词向量样本之前的i-1个词向量样本输入至所述待训练分类模型中,得到第一选定词向量;以及,将所述选定词向量样本以及所述选定词向量样本之后的i-1个词向量样本输入至所述待训练分类模型中,得到第二选定词向量;将所述第一选定词向量与所述第二选定词向量进行拼接得到第三选定词向量,将所述第三选定词向量输入到所述待训练分类模型中。6.一种电网运行日志的信息提取系统,其特征在...

【专利技术属性】
技术研发人员:沈培锋徐家慧刘翌潘小辉黄秋根曹宇白静洁肖林鹏修天
申请(专利权)人:国网江苏省电力有限公司南京供电分公司国网江苏省电力有限公司国家电网有限公司北京科东电力控制系统有限责任公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1