一种基于智能过滤的电力数据关联查询的方法及装置制造方法及图纸

技术编号:34398288 阅读:14 留言:0更新日期:2022-08-03 21:34
本发明专利技术涉及大数据处理技术领域,具体涉及一种基于智能过滤的电力数据关联查询的方法及装置。一种基于智能过滤的电力数据关联查询的方法,包括如下步骤:样本数据输入,形成待关联查询的样本训练集;样本数据清洗;特征参数提取;构建过滤策略组合库;过滤策略实施;精准匹配;本发明专利技术一是解决亿级以上电力数据关联匹配计算量大,时效性差的问题,大幅提升非结构化数据匹配的质量和效率;二是针对不同类型数据能够产生优化的过滤组合,避免单一过滤策略无法有效剔除非匹配数据的问题,提升过滤策略对异构电力数据的适配性;三是构建了可操作的关联匹配评价算法,从匹配质量和计算效率两个角度去评估过滤方法,具备工程实用价值。具备工程实用价值。具备工程实用价值。

【技术实现步骤摘要】
一种基于智能过滤的电力数据关联查询的方法及装置


[0001]本专利技术涉及大数据处理
,具体涉及一种基于智能过滤的电力数据关联查询的方法及装置。

技术介绍

[0002]电力大数据主要来源于电力系统发、输、变(配)、用各个环节,涵盖电力生产、电网运行、企业管理及营销服务等业务领域。长期以来电力系统分专业开展信息化建设,导致电力各专业大多自成体系,数据彼此互相独立,各自存储于不同的平台系统,形成信息孤岛。主要体现三类特点:一是服务器设备的“云化”的快速发展,海量存储成为可能,电力各专业的数据埋点大量增加,数据存储量呈现几何性增加。二是电力数据类型多,既有等长文本形式数据,还有混杂中西文及特殊符号的非结构化数据。三是不同专业数据模型、存储规范存在差异,对同一实体描述不一致,加之部分数据有人工录入,传统的精准匹配方式存在覆盖率低等缺陷,难以有效实现同一实体数据关联。
[0003]随着电力数字化转型的快速推进,数据关联融合的难度持续增加,高度依赖计算资源和存储资源的扩充,难以充分发挥数据关联融合的倍增效力。在电力数据关联过程中,与一般开放领域不同,电力行业数据相似性连接涉及特定领域知识,有其自身的显著特点。目前电力领域,尚没有高效的数据关联查询相关的研究。现有的数据关联技术主要是基于过滤

验证框架,但过滤方式方法缺乏对电力数据针对性的开发与调整,而且在精准匹配环节普遍存在关联数据准确性低、完整性不高的问题。2019年电力技术期刊发表了《基于编辑距离的地址模糊匹配技术》文章,解决了电力客服数据中谐音和精准匹配的问题,但是针对海量数据,数据模型运行效率低,难以满足工程实践需求。
[0004]电力数据在关联查询时,一是数据关联查询通常应用精准匹配方式,导致大量近似数据未得到有效匹配,整体匹配命中率较低;二是针对高度不相似数据,仍采用传统的精准匹配方法,浪费了大量计算资源,缺少对高度不相似数据的高效过滤手段,整体运算过程效率低,时间长,高度依赖计算和存储资源的扩容。
[0005]其他行业关联查询虽然应用过滤方法来提高效率,但过滤方法对不同文本的效果差异大,难以针对多源异构电力数据提供优化的过滤组合策略。简单套用过滤方法,计算高效性难以得到有效保证。
[0006]在开始本专利技术之前,先说明一些术语的涵义。
[0007]q

gram:是将字符串分割成长度为q的片段序列,每个片段称作一个q

gram,分割后产生的一个个单词则称为词元(Token)或词项(Term)。设字符串S,S的长度为|S|,则把S分割成|S|

q+1个字符串片段,每次分割的长度为q,第一次分割从S的第1个字符到第q个字符,第二次分割从S的第2个字符到第q+1个字符,以此类推,直到共分割|S|

q+1个片段分割结束。如字符串S为“Language”,q=3时,则分割如下:
[0008]Language:lan,ang,ngu,gua,uag,age
[0009]倒排索引:以字符串片段为关键字进行索引,倒排索引主要由两个部分组成:“词
汇表”和“倒排列表”。其中,“词汇表”又可称为索引项,它由字符串片段构成;倒排列表又可称为地址索引,它是字符串片段在文本中所在位置的集合。字符串片段所对应的列表,记录了出现该字符串片段的所有字符串,同时也记录了该字符串的ID和字符片段在该字符串中出现的位置情况。
[0010]数量过滤:定义两个字符串(S1,S2),它们段长分别为|s1|、|s2|,阈值为t,滑动长度为q,那么两个字符串(S1,S2)必须共享至少SC
s1,s2
=(max(|s1|,|s2|)

q+1)

q*t相同的tokes2。当SC
s1,s2
>t时,则两个字符串(s1,s2)相似,被加入候选集中;当SC
s1,s2
<t时,则两个字符串(S1,S2)不相似,就可以被排除。
[0011]长度过滤:定义两个字符串(S1,S2),它们长度之差不超过L。针对给定字符串S1,只需要考虑字符串集合中那些与字符串S1长度之差不超过L的字符串S2,实现简单高效剔除不匹配字符串。
[0012]前缀过滤:给定两个字符串(S1,S2),对S1和S2进行分割。如果S1和S2满足Q(S1,S2)≥α,那么S1和S2在其前缀长度内至少有一个段是相等的;当两个字符串(S1,S2)的前缀长度内相等的长度Q(S1,S2)大于等于阈值α时,则两个字符串(S1,S2)相似,被加入候选集中;当两个字符串(S1,S2)的前缀长度内相等的长度Q(S1,S2)小于阈值α时,则两个字符串(S1,S2)不相似,就可以被排除。前缀过滤具体如图1所示。
[0013]位置过滤:位置过滤是建立在前缀过滤的基础上的,给定一个有限字符串集合S={s1,s2,s3,......},对于字符串子串s=r[i],r被s分为左右两段。左边s
l
(s)=r[0,1,...,i

1],右边s
r
(s)=r[i,...,|r|

1]。如果Q(r,s)≥α对于每一个前缀s∈r∩s,有Q(r
l
(r),r
l
(s))+min(|r
l
(r)|,|r
l
(s)|)≥α。例如字符串r=[a,b,c,d,e]和s=[m,n,c,d,e],阈值为t=0.5,假设(r,s)满足Q(r,s)≥4,r与s满足相似条件。位置过滤值=1+min(2,2)=3<4。表1显示字符串的token的一系列的位置信息。
[0014]表1字符串r和s中的token所包含的位置信息
[0015][0016]频率过滤:对于字符串中的每一个字符σ
i
(1≤i≤∑),字符串包含字符σ
i
的个数被称为字符σ
i
的频率,将其表示为f
i
(s)。给定两个任意的字符串x和y,如果字符串x和y对应的频率向量满足不等式‖f(s)

f(t)‖
L1
>2τ,则有字符串x和y不相似,可以通过该方式进行过滤,批量剔除不匹配数据。
[0017]编辑距离:即从一个字符串转换成另一个字符串所需要的编辑次数,包括插入字符,删除字符及替换字符这三种操作。最小编辑距离即从一个字符串到另一个字符串所需要的最小编辑次数,利用最小编辑距离可以判断两个字符串的相似程度。
[0018]欧式距离:在N维空间中两个点之间的真实距离,计算公式如下:
[0019][0020]Sigmoid函数:一种常见的S形函数,将变量映射到0,1之间实现数据归一化,公式如下:
[0021][0022]贝叶斯概率:是由贝叶斯理论所提供的一种对概率的解释,它采用将概率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于智能过滤的电力数据关联查询的方法,其特征在于,包括如下步骤:步骤S1:样本数据输入;首先将覆盖目标类型的n组样本训练数据{R
n
,S
n
}={(r1,s1),(r2,s2),(r3,s3),

,(r
n
,s
n
)},集中传输到统一的数据分析平台,形成待关联查询的样本训练集;步骤S2:样本数据清洗;基于正则表达式对n组样本训练集进行数据清洗,剔除数据中的冗余无效数据,去除样本数据中的空字符和中英文标点符号;去除其他标点符号及特殊字符;对数据集中英文和数字的格式进行转换,将半角转换为全角,使字母和数字与汉字一样占据着等宽的位置;最后输出清洗后的n组样本训练数据{R
n
,S
n
};步骤S3:特征参数提取;基于Sigmoid函数方法,首先对清洗后的n组样本训练集{R
n
,S
n
}进行特征值计算,包括计算数据量alpha、字符串平均长度length、字符串复杂度complexity,然后对特征值进行归一化处理,输出数据集特征参数{α
n
,l
n
,f
n
};步骤S4:构建过滤策略组合库;首先输入已知n组样本训练集{R
n
,S
n
}及其对应的特征参数集{α
n
,l
n
,f
n
},然后基于特征参数的不同,采用遍历方法迭代训练各类单一过滤策略集(θ
i
,q
i
),以获得不同单一过滤策略下的过滤效率指数w,输出对应的过滤效率指数集合k;通过评估过滤效率指数w的大小,形成最优单一过滤策略集合kk;进一步通过引入综合过滤效率阈值形成n组样本训练集的过滤策略组合矩阵kn,构建电力系统数据的过滤策略组合库;步骤S5:过滤策略实施;引入新的测试集E,利用步骤S3提取测试集的特征参数,并对过滤策略组合库的训练集的特征参数实施匹配,基于欧式距离d最小原则,从组合库中获取相对应的过滤策略组合,表示为该测试集的最优过滤策略;详细步骤如下:步骤S5.1:提取测试集的特征参数;对新的测试集进行清洗,并基于Sigmoid函数方法对新的测试数据集进行特征值的计算,然后对特征值作归一化处理,输出数据集特征参数(α,l,f);步骤S5.2:计算特征参数的欧式距离;输入新的测试集的特征参数值(α,l,f),利用欧式距离公式,依次与组合库K
n
特征参数值[(α1,l1,f1),(α2,l2,f2),(α3,l3,f3),

,(α
n
,l
n
,f
n
)]进行逐一计算,并输出计算结果d
n
=(d1,d2,d3,

,d
n
),计算公式:步骤S5.3:输出测试集的过滤策略组合;基于欧式距离d最小原则,从欧式距离结果集d
n
=(d1,d2,d3,

,d
n
)中选择最小值d=Min(d
n
),同时选择距离最小值的样本训练集相对应的过滤策略组合θ
n
为该新的测试集的过滤策略,并输出过滤策略θ
n
,为后续实施过滤提供策略方案;步骤S5.4:实施过滤策略组合;输入测试集E,并利用上述步骤输出的最优过滤策略组合θ
n
,通过多种过滤策略最大程度剔除掉不匹配的数据集合,保留可能匹配的数据集合,最终生成数据候选集E

;步骤S6:精准匹配;利用字符串模糊匹配模型,即:编辑距离算法,对上述步骤生成的候选集E

实施精准匹配,得到匹配结果集F;详细步骤如下:步骤S6.1:对候选集E

的字符串的中文信息转化成拼音,保留拼音和文本两组数据;步骤S6.2:基于最小编辑距离法,对拼音、文本两组数据计算出两个字符串间需要删
除、增加或修改的最小字符数,即最小编辑距离;步骤S6.3:根据最小编辑距离与地址长度的比值,计算两个字符串间拼音和文本不同形式下的相似度;步骤S6.4:输出相似度阈值符合标准所有相似的字符串。2.根据权利要求1所述一种基于智能过滤的电力数据关联查询的方法,其特征在于,所述步骤S3包括如下具体过程:步骤S3.1:特征值计算;通过对n组样本训练集{R
n
,S
n
}的数据量alpha、平均长度length和复杂(complexity进行逐一计算,得到n组特征值{α
n
,l
n
,f
n
};其中,α为数据集包含文本个数;l为数据集字符串长度平均值;字符复杂度f为中文、英文和数字的数量,字符复杂度f=0.2*中文概率+0.4*英文概率+0.4*数字概率;步骤S3.2:特征值归一化处理;数据量α:使用Sigmoid函数将数据量(α)进行参数归一化处理;字符长度l:使用Sigmoid函数将字符长度(l)进行参数归一化处理;字符复杂度f:利用贝叶斯概率模型,基于数据集中文、英文、数字的概率分布情况,对字符复杂度进行参数归一化处理;步骤S3.3:输出n组样本训练集的特征参数集;{α
n
,l
n
,f
n
}={(α1,l1,f1),(α2,l2,f2),

,(α
n
,l
n
,f
n
)}。3.根据权利要求1所述一种基于智能过滤的电力数据关联查询的方法,其特征在于,所述步骤S4包括如下具体过程:步骤S4.1:配置过滤策略参数;首先对多种过滤方法(θ)和q

gram方法的q值进行组合适配,形成过滤策略组合{θ
×
q};然后基于q值对样本训练集{R
n
,S
n
}字符...

【专利技术属性】
技术研发人员:金鹏杨菁王宗伟张全赵郭燚武鹏姜冬卜晓阳苏媛郝景昌冉晶晶任海洋刘佳
申请(专利权)人:国家电网有限公司客户服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1