一种装置信息词典的生成方法及计算装置制造方法及图纸

技术编号:22055339 阅读:29 留言:0更新日期:2019-09-07 15:17
本发明专利技术实施例公开了一种装置信息词典的生成方法,用于通过多次迭代直至算法收敛,得到最终的参考词典。本发明专利技术实施例方法包括:获取第一当前词典和原始保护装置信息;根据第一当前词典对原始保护装置信息进行分词处理,得到第一分词结果;对第一分词结果进行频率统计,得到每个字词的第一出现频率;构造第一向量;将第一向量添加到第一集合中;若第一字词对应的第一目标出现频率满足第一预设条件,则计算第一字词的左侧字词与第一字词的第一互信息最大值;计算第一字词与第一字词的第一右侧字词的第一互信息;若第一互信息大于第一互信息最大值,则在第一当前词典中删除第一字词,且将第一目标字词添加到第一当前词典中,得到第二当前词典。

A Method of Generating Device Information Dictionary and Its Calculating Device

【技术实现步骤摘要】
一种装置信息词典的生成方法及计算装置
本专利技术涉及计算机领域,尤其涉及一种装置信息词典的生成方法及计算装置、可读存储介质。
技术介绍
在现有的电力行业中,由于缺少相关行业规范,电力系统保护装置的信息的命名并不统一,尤其是目前已经大量投入运行的传统保护装置,不同厂家、不同型号和版本的信息表差异较大。对于采集这些信息的控制系统来说,想进一步利用这些信息将面临很大的挑战,例如进行故障信息判断、事故分析方面,需要对信息语义进行理解;在系统与系统之间需要交换数据的应用中,需要知道信息如何匹配。
技术实现思路
本专利技术实施例提供了一种装置信息词典的生成方法及计算装置、可读存储介质,用于通过统计在保护装置信息中出现的字词的频率,按照给定的阈值判断相邻字词的互信息值是否满足连接的条件,并生成新的词典,通过多次迭代直至算法收敛,得到最终的参考词典。有鉴于此,本专利技术第一方面提供一种装置信息词典的生成方法,可以包括:获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;对所述第二分词结果进行频率统计,得到每个字词的第三出现频率;构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序;将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序;若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词;计算所述第二字词与所述第二字词的第二右侧字词的第二互信息;若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。可选的,在本专利技术的一些实施例中,所述根据所述当前词典对所述原始保护装置信息进行分词处理,包括:根据所述当前词典,采用最大正向匹配方式,对所述原始保护装置信息进行分词处理。可选的,在本专利技术的一些实施例中,所述方法还包括:将所述第一右侧字词从所述第一集合中删除。可选的,在本专利技术的一些实施例中,所述将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述当前词典中,得到第二当前词典之后,所述方法还包括:将迭代次数加1,得到更新后的迭代次数。可选的,在本专利技术的一些实施例中,所述方法还包括:若所述第一字词的右侧字词中包括除所述第一右侧字词之外的第三右侧字词,则计算所述第一字词与所述第一字词的第三右侧字词的第三互信息;若所述第三互信息大于所述第一互信息最大值,则在所述第二当前词典中删除所述第一字词,且将所述第一字词和所述第三右侧字词组成的第三目标字词添加到所述第二当前词典中,得到第三当前词典。本专利技术第二方面提供一种计算装置,可以包括:获取模块,用于获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;处理模块,用于执行以下步骤:根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;对所述第二分词结果进行频率统计,得到每个字词的第三出现频率;构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序;将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序;若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词;计算所述第二字词与所述第二字词的第二右侧字词的第二互信息;若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。可选的,在本专利技术的一些实施例中,所述处理模块,具体用于根据所述当前词典,采用最大正向匹配方式,对所述原始保护装置信息进行分词处理。可选的,在本专利技术的一些实施例中,所述处理模块,还用于将所述第一右侧字词从所述第一集合中删除。可选的,在本专利技术的一些实施例中,所述处理模块,还用于将迭代次数加1,得到更新后的迭代次数。可选的,在本专利技术的一些实施例中,所述处理模块,还用于若所述第一字词的右侧字词中包括除所述第一右侧字词之外的第三右侧字词,则计算所述第一字词与所述第一字词的第三右侧字词的第三互信息;若所述第三互信息大于所述第一互信息最大值,则在所述第二当前词典中删除所述第一字词,且将所述第一字词和所述第三右侧字词组成的第三目标字词添加到所述第二当前词典中,得到第三当前词典。本专利技术第三方面提供一种计算装置,可以包括:收发器,处理器,存储器,其中,所述收发器,所述处理器和所述存储器通过总线连接;所述存储器,用于存储操作指令;所述收发器,用于获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;所述处理器,用于调用所述操作指令,执行如前述第一方面实施例中所述的装置信息词典的生成方法的步骤。本专利技术第四方面提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面实施例中所述的装置信息词典的生成方法的步骤。从以上技术方案可以看出,本专利技术实施例具有以下优点:在本专利技术实施例中,获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;根据本文档来自技高网...

【技术保护点】
1.一种装置信息词典的生成方法,其特征在于,包括:获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;对所述第二分词结果进行频率统计,得到每个字词的第三出现频率;构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序;将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序;若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词;计算所述第二字词与所述第二字词的第二右侧字词的第二互信息;若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。...

【技术特征摘要】
1.一种装置信息词典的生成方法,其特征在于,包括:获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;对所述第二分词结果进行频率统计,得到每个字词的第三出现频率;构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序;将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序;若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词;计算所述第二字词与所述第二字词的第二右侧字词的第二互信息;若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。2.根据权利要求1所述的方法,其特征在于,所述根据所述当前词典对所述原始保护装置信息进行分词处理,包括:根据所述当前词典,采用最大正向匹配方式,对所述原始保护装置信息进行分词处理。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:将所述第一右侧字词从所述第一集合中删除。4.根据权利要求1或2所述的方法,其特征在于,所述将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述当前词典中,得到第二当前词典之后,所述方法还包括:将迭代次数加1,得到更新后的迭代次数。5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:若所述第一字词的右侧字词中包括除所述第一右侧字词之外的第三右侧字词,则计算所述第一字词与所述第一字词的第三右侧字词的第三互信息;若所述第三互信息大于所述第一互信息最大值,则在所述第二当前词典中删除所述第一字词,且将所述第一字词和所述第三右侧字词组成的第三目标字词添加到所述第二当前词典中,得到第三当前词典。6.一种计算装置,其特征在于,包括:获取模块,用于获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;处理模块,用于执行以下步骤:根...

【专利技术属性】
技术研发人员:巫聪云刘斌蒙亮李海勇杨彥田君杨黄超杜杨华陈志韩冰覃丙川秦蓓何洪孙翔曾剑锋卢德宏于彬汤小兵张坎俞小俊石磊毛春岳孙泽冯林江顾霞玲徐海涛
申请(专利权)人:广西电网有限责任公司南京国电南思科技发展股份有限公司
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1