【技术实现步骤摘要】
面向多源异构电网数据融合过程中的数据匹配方法及装置
[0001]本专利技术涉及的
是多源异构电网数据融合
,尤其涉及一种面向多源异构电网数据融合过程中的数据匹配方法及装置。
技术介绍
[0002]近年来,随着电力系统的快速发展,电力系统运行、调度与控制中数据来源越发广泛,同时,数据的规模越来越大,数据类型也在快速增长。其中,这些数据的数据源不仅包括发电系统、生产管理系统、输配电系统、信息采集系统、保护检测系统、用户信息系统、安全信息系统等电力系统内部数据,还包括气象环境信息、地理位置信息,公共服务部门等外部信息。这些多源数据具有以下特征:(1)数据规模大;(2)数据来源广泛:数据源来自于不同系统与采样器,数据彼此之间缺乏联系,关联性较小,由此带来分析困难等问题;(3)信息共享性不足;(4)数据的价值密度低等问题;这些问题导致了电力系统大数据具有多源、高度异构的特征,传统的数据分析与处理技术在信息的融合、处理和匹配等方面均遇到了瓶颈。因此,急需开展研究应用于电力大数据的共享、融合、匹配、查询、数据挖缺等方面的大数据相关技术。
[0003]为了解决电力调度控制系统数据的信息高度异构和多源特性,实现调控大数据共享和数据融合,需要研究基于大数据技术的多源异构数据融合技术。在异构数据融合过程中,涉及到各类数据匹配问题。现有的传统数据匹配方法在面临多源异构数据匹配问题时,常常会出现识别错误,匹配不上,匹配混乱和匹配效率低下等问题,严重影响多源异构数据的融合过程,造成数据挖掘困难,干扰电力系统的正常运行。 />
技术实现思路
[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0005]鉴于上述存在的问题,提出了本专利技术。
[0006]因此,本专利技术解决的技术问题是:多源异构电网数据融合过程中的数据匹配问题。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:
[0008]第一方面,本专利技术实施例提供了一种面向多源异构电网数据融合过程中的数据匹配方法,包括:
[0009]将实际多源异构电网数据转化为待匹配的数据串;
[0010]根据数据本体匹配规则判断所述待匹配数据串数据的匹配情况,若数据本体匹配不成功,则直接判断两个数据串匹配不成功,否则,进行核心词匹配;
[0011]根据核心词匹配规则判断所述待匹配数据串数据的匹配情况,若核心词匹配不成功,则直接判断两个数据串匹配不成功,否则,进行数字型数据匹配;
[0012]根据数字型数据匹配规则判断所述待匹配数据串数据的匹配情况,若数字型数据
匹配不成功,则直接判断两个数据串匹配不成功,否则,计算数据串匹配度;
[0013]根据所述数据串匹配度进行数据匹配结果判定。
[0014]作为面向多源异构电网数据融合过程中的数据匹配方法的一种优选方案,其中:
[0015]所述转化为待匹配的数据串包括:依照预设的数据本体与代码值的对应关系,在数据串首位加上数据本体代码值;当一个数据串包含多个数据本体时,则按照数据本体的代码值由小到大在数据串首位排列。
[0016]作为面向多源异构电网数据融合过程中的数据匹配方法的一种优选方案,其中:
[0017]所述数据本体匹配规则包括:判断两个待匹配的数据串的本体代码是否一致,若不一致则说明数据本体匹配不成功,直接判断两个数据串匹配不成功;否则,进行核心词匹配;当数据串存在多个本体代码时,需满足所有本体代码都一致,才算数据串匹配成功,否则判定为匹配失败。
[0018]作为面向多源异构电网数据融合过程中的数据匹配方法的一种优选方案,其中:
[0019]所述核心词匹配规则包括:根据电网异构数据信息和历史数据特点,从数据中提取出现多次的,具有普遍意义的公共词语作为核心词;将表示同一意思的核心词按照等价关系处理,具体为:
[0020]给定核心词集合T={t1,t2,
…
t
n
}上的一个二元关系R=T*T,设M
R
=(m
ij
)
n*n
为R的关系矩阵,当t
i
与t
j
等价时,m
ij
=1,否则m
ij
=0;
[0021]核心词集合T中核心词的等价关系矩阵M
R
可以表示为下式:
[0022][0023]当两个待匹配的数据串中核心词经过等价关系处理后,若存在不一致情况,则直接判断数据不匹配;当核心词完全一致,则按照数字型数据匹配规则继续进行匹配;无论核心词含有几个字符,一律按照一个字符计算。
[0024]作为面向多源异构电网数据融合过程中的数据匹配方法的一种优选方案,其中:
[0025]所述数字型数据匹配规则包括:选取两个待匹配的数据串中各个核心词前后距离最近的阿拉伯数字和罗马字母,一一对应比较是否相同,若全部相同,判定为数字类数据匹配成功,则计算数据串匹配度;若匹配失败,则直接判断数据不匹配;若出现希腊数字,则需要将连续的希腊数字单独取出,并判断希腊数字对应部分是否相等;若相等,则计算数据串匹配度;若不相等,则直接判断数据不匹配。
[0026]作为面向多源异构电网数据融合过程中的数据匹配方法的一种优选方案,其中:
[0027]所述计算数据串匹配度包括:比较待匹配的两个数据串的字符长度,定义字符数较短的字符串为s1,作为主串;定义字符数较长的字符串s2,作为副串;副串s2从s1的一个字符开始向右移动,每移动一个字符计算一次当前数据串匹配度md;若移动了l个字符,则数据串匹配结果记作md1;直到副串s2的第1个字符移动到主串s1的最后一个字符为止;选取最大的md
max
作为数据串匹配度,即md
max
=max{md1,md2,
…
md
n
…
};
[0028]其中,md的计算方法为:设待匹配的数据串为s1、s2,根据数据串的匹配数据数和交换数据数确定两个数据串的基本相似度md
s
,计算公式为:
[0029][0030]式中,m是匹配的数据数,x是依据匹配窗口MW计算得到交换数据数目,为不同顺序的匹配字符的数目的一半;|s1|、|s2|分别为数据串的数据数目,匹配窗口MW的计算公式为:
[0031][0032]在基本相似度md
s
的基础上,定义一个限制因子α和当前数据串匹配度md
n
;若数据串s1、s2连续相同字符的最大数目为L,则字符串匹配度md为:
[0033][0034]式中,α为限制因子,取值范围为(0,0.5),一般取0.25。
[0035]作为面向多源异构电网数据融本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种面向多源异构电网数据融合过程中的数据匹配方法,其特征在于,包括:将实际多源异构电网数据转化为待匹配的数据串;根据数据本体匹配规则判断所述待匹配数据串数据的匹配情况,若数据本体匹配不成功,则直接判断两个数据串匹配不成功,否则,进行核心词匹配;根据核心词匹配规则判断所述待匹配数据串数据的匹配情况,若核心词匹配不成功,则直接判断两个数据串匹配不成功,否则,进行数字型数据匹配;根据数字型数据匹配规则判断所述待匹配数据串数据的匹配情况,若数字型数据匹配不成功,则直接判断两个数据串匹配不成功,否则,计算数据串匹配度;根据所述数据串匹配度进行数据匹配结果判定。2.如权利要求1所述的面向多源异构电网数据融合过程中的数据匹配方法,其特征在于,所述转化为待匹配的数据串包括:依照预设的数据本体与代码值的对应关系,在数据串首位加上数据本体代码值;当一个数据串包含多个数据本体时,则按照数据本体的代码值由小到大在数据串首位排列。3.如权利要求1或2所述的面向多源异构电网数据融合过程中的数据匹配方法,其特征在于,所述数据本体匹配规则包括:判断两个待匹配的数据串的本体代码是否一致,若不一致则说明数据本体匹配不成功,直接判断两个数据串匹配不成功;否则,进行核心词匹配;当数据串存在多个本体代码时,需满足所有本体代码都一致,才算数据串匹配成功,否则判定为匹配失败。4.如权利要求1所述的面向多源异构电网数据融合过程中的数据匹配方法,其特征在于,所述核心词匹配规则包括:根据电网异构数据信息和历史数据特点,从数据中提取出现多次的,具有普遍意义的公共词语作为核心词;将表示同一意思的核心词按照等价关系处理,具体为:给定核心词集合T={t1,t2,
…
t
n
}上的一个二元关系R=T*T,设M
R
=(m
ij
)
n*n
为R的关系矩阵,当t
i
与t
j
等价时,m
ij
=1,否则m
ij
=0;核心词集合T中核心词的等价关系矩阵M
R
可以表示为下式:当两个待匹配的数据串中核心词经过等价关系处理后,若存在不一致情况,则直接判断数据不匹配;当核心词完全一致,则按照数字型数据匹配规则继续进行匹配;无论核心词含有几个字符,一律按照一个字符计算。5.如权利要求1所述的面向多源异构电网数据融合过程中的数据匹配方法,其特征在于,所述数字型数据匹配规则包括:选取两个待匹配的数据串中各个核心词前后距离最近的阿拉伯数字和罗马字母,一一对应比较是否相同,若全部相同,判定为数字类数据匹配成功,则计算数据串匹配度;若匹配失败,则直接判断数据不匹配;若出现希腊数字,则需要将连续的希腊数字单独取出,并判断希腊数字对应部分是否相等;若相等,则计算数据串匹配
度;若不相等,则直接判断数据不匹配。6...
【专利技术属性】
技术研发人员:黄博阳,肖小兵,李跃,蔡永翔,付宇,金鑫,肖勇,潘廷哲,何肖蒙,王扬,方阳,刘安茳,熊楠,郑友卓,张洋,郝树青,何心怡,苗宇,窦陈,张恒荣,古庭赟,代奇迹,班诗雪,
申请(专利权)人:贵州电网有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。