基于增量学习优化的故障录波文件通道名称识别方法技术

技术编号:34532054 阅读:20 留言:0更新日期:2022-08-13 21:25
本发明专利技术涉及基于增量学习优化的故障录波文件通道名称识别方法,将需要匹配的录波文件通道名称通过编译程序从配置文件中提取出来并进行文本预处理;通过优化Word2vec模型快速准确地实现通道名称的中文分词以及中文词向量的构建;最后通过余弦相似度和逆文本频率相结合的文本相似度匹配方法根据特征向量计算通道名称相似度,并根据通道名称相似度进行故障录波文件通道名称识别,进而准确的实现通道名称识别匹配。本发明专利技术采用增量学习技术不断地从新样本中学习新的特征,同时保留已学习的样本特征,实现“不遗忘学习”,提高模型训练效率和适应性,并实现了录波文件通道名称智能比对,克服了人工比对存在的缺点,提高了通道名称匹配准确度和工作效率。称匹配准确度和工作效率。称匹配准确度和工作效率。

【技术实现步骤摘要】
基于增量学习优化的故障录波文件通道名称识别方法


[0001]本专利技术属于文本匹配
,尤其是基于增量学习优化的故障录波文件通道名称识别方法。

技术介绍

[0002]智能变电站基于IEC 61850标准,采用面向对象建模方式,为故障录波技术的发展提供了良好契机。在传统变电站中,故障录波配置为分散录波,网络分析装置和录波装置之间的数据无法实现共享。由于智能变电站内所有设备均采用统一的功能模型、数据模型和通信协议,实现了数据共享和互操作,因此智能变电站可以采用集中录波方式。智能变电站中的SV、GOOSE报文信息通过过程层网络光纤链路传输至集中录波装置。
[0003]为了确保运行可靠性,220kV智能变电站内全站录波文件配置形式主要有两种,一种是“双套220kV录波文件+单套110kV录波文件”,另一种是“双套220kV线路录波文件+双套220kV主变录波文件+单套110kV录波文件”。500kV智能变电站内全站录波文件配置形式仅一种,即“双套500kV线路录波文件+双套500kV主变录波文件+双套220kV录波文件”。双套录波文件分别通过各自的过程层网络采集各自合并单元网络发送口发出的采样数据,双套合并单元由一次设备的不同绕组提供二次电流或电压信息。由于前期无相关规范,不同厂商录波文件通道名称命名不同。目前,针对录波文件通道名称识别技术的研究较少,现阶段使用的方法是由编辑距离算法工具和专业术语逻辑规范综合而来。但是,编辑距离算法存在着准确性不高、模式匹配速度欠佳等问题。并且该方案受到应用平台的限制,无法大规模推广应用。
[0004]中文文本相似度匹配是自然语言处理领域的热点问题之一,主要应用于文本分类、文本聚类等领域。Niwattanakul等人提出一种基于Dice系数的文本相似度匹配方法直接对原始文本进行比较,实现原理简单,多用于文本的快速模糊匹配。但该方法不能考虑词语的语义信息,对于近义词和多义词等问题都无法处理。Tasi等人提出一种将最长公共子序列和VSM相结合的文本相似度匹配方法进一步提升了传统VSM算法性能。但是该方法在简化模型的过程中忽略了词语间的关系,并且生成稀疏的文本向量会导致计算资源和空间的浪费。Collados等人提出一种基于NASARI方法的文本相似度匹配模型,在显式语言分析方法的基础上额外增加了WordNet知识信息,得到了更加有效的文本向量表示。但是该方法基于网络知识,和专家编制的语义词典相比结构化程度较差,并且包含一些错误信息,文本相似度匹配效果不好。Kim等人提出一种基于DRCN模型的文本相似度匹配方法在特征提取阶段结合了DenseNet连接策略和注意力机制,采用了更加多样化的交互策略,提高了算法性能。但该模型结构相比于传统孪生网络更加复杂,模型参数多,并且该模型的计算成本较高,计算时间慢,无法实现快速匹配。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提出基于增量学习优化的故障录波文件
通道名称识别方法,采用增量学习技术不断地从新样本中学习新的特征,同时保留已学习的样本特征,实现“不遗忘学习”,提高模型训练效率和适应性,并实现了录波文件通道名称智能比对,克服了人工比对存在的缺点,在减少比对时间和人工工作量的同时,提高了通道名称匹配准确度和工作效率。
[0006]本专利技术解决其技术问题是采取以下技术方案实现的:
[0007]基于增量学习优化的故障录波文件通道名称识别方法,包括以下步骤:
[0008]步骤1、输入需要进行对比的故障录波配置文件;
[0009]步骤2、提取步骤1配置文件的通道名称文本,并对通道名称文本进行预处理;
[0010]步骤3、构建通道名称词向量,并获取步骤2预处理后通道名称的特征向量;
[0011]步骤4、根据特征向量计算通道名称相似度,并根据通道名称相似度进行故障录波文件通道名称识别。
[0012]而且,所述步骤1中配置文件包括站名、录波装置标号和COMTRADE标准版本;通道的数目和类型;通道名称、单元和转换因素;线路工作频率;采样的速率和采样点数;第一数据点的日期和时间;触发点的日期和时间;数据文件格式以及时间戳和倍增因素。
[0013]而且,所述步骤2包括以下步骤:
[0014]步骤2.1、配置文件编码格式转换;
[0015]步骤2.2、配置文件格式转换;
[0016]步骤2.3、配置文件中通道名称定位提取;
[0017]步骤2.4、使用Pkuseg分词工具对步骤2.3中通道名称进行分词;
[0018]步骤2.5、存储分词结果。
[0019]而且,所述步骤2.1的具体实现方法为:将配置文件的编码格式转换为UTF

8;步骤2.2的具体实现方法为:将配置文件格式转换为文本文档格式。
[0020]而且,所述步骤2.3的具体实现方法为:将位于配置文件第二列的通道名称信息单独提取出来并去除无关信息。
[0021]而且,所述步骤2.4中使用的Pkuseg分词工具为基于通用分词模型基础上,将已正确分词的录波文件通道名称数据集按照8:1:1随机打乱并且生成训练集、测试集和验证集;利用训练集和测试集训练录波文件通道名称得到的专用分词模型;并且利用验证集验证专用分词模型的分词效果。
[0022]而且,所述步骤3中构建通道名称词向量的具体实现方法为:
[0023]步骤3.1、加载原始Skip

gram模型;
[0024]步骤3.2、根据原始Skip

gram模型提取原有词汇表;
[0025]步骤3.3、根据步骤2中预处理后的通道名称文本建立新增词汇表;
[0026]步骤3.4、判断步骤3.3中新增词汇表是否存在原有词汇表,若新增词汇表不存在原有词汇表中,则更新原有词汇表,进行增量学习并生成新的Skip

gram模型和词向量,否则继续判断新增词汇表是否存在原有词汇表。
[0027]而且,所述步骤3.1中原始Skip

gram模型包括历史配置文件中词语的词向量信息。
[0028]而且,所述步骤3.3中新增通道名称根据步骤2使用专用分词模型进行预处理并建立新增词汇表。
[0029]而且,所述步骤4的具体实现方法为:
[0030]计算通道名称分词的文本频率idf:
[0031][0032]其中,D为语料库中文本的数量,D
w
为通道名称分词w出现的文本数量;
[0033]计算经过逆文本频率加权过后的词向量vec(s):
[0034][0035]其中,v(w
i
)为通道名称的第i个分词w
i
的向量,idf(w
i
)为该分词的逆文本频率值;将加权后的分词向量进行横向累计求出通道名称向量后采用余弦相似度算法根据特征向量计算通道名称相似度,并根据通道名称相似度进行故障录波文件通道名称识别:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于增量学习优化的故障录波文件通道名称识别方法,其特征在于:包括以下步骤:步骤1、输入需要进行对比的故障录波配置文件;步骤2、提取步骤1配置文件的通道名称文本,并对通道名称文本进行预处理;步骤3、构建通道名称词向量,并获取步骤2预处理后通道名称的特征向量;步骤4、根据特征向量计算通道名称相似度,并根据通道名称相似度进行故障录波文件通道名称识别。2.根据权利要求1所述的基于增量学习优化的故障录波文件通道名称识别方法,其特征在于:所述步骤1中配置文件包括站名、录波装置标号和COMTRADE标准版本;通道的数目和类型;通道名称、单元和转换因素;电力系统工作频率;采样的速率和采样点数;第一数据点的日期和时间;触发点的日期和时间;数据文件格式以及时间戳和倍增因素。3.根据权利要求1所述的基于增量学习优化的故障录波文件通道名称识别方法,其特征在于:所述步骤2包括以下步骤:步骤2.1、配置文件编码格式转换;步骤2.2、配置文件格式转换;步骤2.3、配置文件中通道名称定位提取;步骤2.4、使用Pkuseg分词工具对步骤2.3中通道名称进行分词;步骤2.5、存储分词结果。4.根据权利要求3所述的基于增量学习优化的故障录波文件通道名称识别方法,其特征在于:所述步骤2.1的具体实现方法为:将配置文件的编码格式转换为UTF

8;步骤2.2的具体实现方法为:将配置文件格式转换为文本文档格式。5.根据权利要求3所述的基于增量学习优化的故障录波文件通道名称识别方法,其特征在于:所述步骤2.3的具体实现方法为:将位于配置文件第二列的通道名称信息单独提取出来并去除无关信息。6.根据权利要求3所述的基于增量学习优化的故障录波文件通道名称识别方法,其特征在于:所述步骤2.4中使用的Pkuseg分词工具为基于通用分词模型基础上,将已正确分词的录波文件通道名称数据集按照8:1:1随机打乱并且生成训练集、测试集和验证集;利用训练集和测试集训练录波文件通道名称得到的专用分词模型;并且利用验证集验证专用分词模型的分词效果。7.根据权利要求1所述的基于增量学习优化的故障录波文件通道名称识别方法,其特征在于:所述步骤3...

【专利技术属性】
技术研发人员:戴志辉杨鑫刘悦杨辉
申请(专利权)人:华北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1