【技术实现步骤摘要】
一种装置信息词典的生成方法及计算装置
本专利技术涉及计算机领域,尤其涉及一种装置信息词典的生成方法及计算装置、可读存储介质。
技术介绍
在现有的电力行业中,由于缺少相关行业规范,电力系统保护装置的信息的命名并不统一,尤其是目前已经大量投入运行的传统保护装置,不同厂家、不同型号和版本的信息表差异较大。对于采集这些信息的控制系统来说,想进一步利用这些信息将面临很大的挑战,例如进行故障信息判断、事故分析方面,需要对信息语义进行理解;在系统与系统之间需要交换数据的应用中,需要知道信息如何匹配。
技术实现思路
本专利技术实施例提供了一种装置信息词典的生成方法及计算装置、可读存储介质,用于通过统计在保护装置信息中出现的字词的频率,按照给定的阈值判断相邻字词的互信息值是否满足连接的条件,并生成新的词典,通过多次迭代直至算法收敛,得到最终的参考词典。有鉴于此,本专利技术第一方面提供一种装置信息词典的生成方法,可以包括:获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;计算所述第一字词与所述第一 ...
【技术保护点】
1.一种装置信息词典的生成方法,其特征在于,包括:获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;对所述第二分词结果进行频率 ...
【技术特征摘要】
1.一种装置信息词典的生成方法,其特征在于,包括:获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;根据所述第一当前词典对所述原始保护装置信息进行分词处理,得到第一分词结果;对所述第一分词结果进行频率统计,得到每个字词的第一出现频率;构造第一向量,所述第一向量包括所述每个字词及对应的第一出现频率,以及所述每个字词右侧出现的字词及对应的第二出现频率;将所述第一向量添加到第一集合中,其中,所述第一集合中的元素按照对应的出现频率从大到小排序;若第一字词对应的第一目标出现频率满足第一预设条件,则计算所述第一字词的左侧字词与所述第一字词的第一互信息最大值,所述第一集合包括所述第一字词;计算所述第一字词与所述第一字词的第一右侧字词的第一互信息;若所述第一互信息大于所述第一互信息最大值,则在所述第一当前词典中删除所述第一字词,且将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述第一当前词典中,得到第二当前词典;若所述第一字词的右侧字词中未包括除所述第一右侧字词之外的其他右侧字词,则根据所述第二当前词典对所述原始保护装置信息进行分词处理,得到第二分词结果;对所述第二分词结果进行频率统计,得到每个字词的第三出现频率;构造第二向量,所述第二向量包括所述每个字词及对应的第三出现频率,以及所述每个字词右侧出现的字词及对应的第四出现频率,其中,所述第二向量中的字词按照对应的出现频率从大到小排序;将所述第二向量添加到第二集合中,其中,所述第二集合中的元素按照对应的出现频率从大到小排序;若第二字词对应的第二目标出现频率满足第二预设条件,则计算所述第二字词的左侧字词与所述第二字词的第二互信息最大值,所述第二集合包括所述第二字词;计算所述第二字词与所述第二字词的第二右侧字词的第二互信息;若所述第二互信息小于等于所述第二互信息最大值,则所述第二当前词典为参考词典。2.根据权利要求1所述的方法,其特征在于,所述根据所述当前词典对所述原始保护装置信息进行分词处理,包括:根据所述当前词典,采用最大正向匹配方式,对所述原始保护装置信息进行分词处理。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:将所述第一右侧字词从所述第一集合中删除。4.根据权利要求1或2所述的方法,其特征在于,所述将所述第一字词和所述第一右侧字词组成的第一目标字词添加到所述当前词典中,得到第二当前词典之后,所述方法还包括:将迭代次数加1,得到更新后的迭代次数。5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:若所述第一字词的右侧字词中包括除所述第一右侧字词之外的第三右侧字词,则计算所述第一字词与所述第一字词的第三右侧字词的第三互信息;若所述第三互信息大于所述第一互信息最大值,则在所述第二当前词典中删除所述第一字词,且将所述第一字词和所述第三右侧字词组成的第三目标字词添加到所述第二当前词典中,得到第三当前词典。6.一种计算装置,其特征在于,包括:获取模块,用于获取第一当前词典和原始保护装置信息,所述第一当前词典为空集;处理模块,用于执行以下步骤:根...
【专利技术属性】
技术研发人员:巫聪云,刘斌,蒙亮,李海勇,杨彥,田君杨,黄超,杜杨华,陈志,韩冰,覃丙川,秦蓓,何洪,孙翔,曾剑锋,卢德宏,于彬,汤小兵,张坎,俞小俊,石磊,毛春岳,孙泽,冯林江,顾霞玲,徐海涛,
申请(专利权)人:广西电网有限责任公司,南京国电南思科技发展股份有限公司,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。