【技术实现步骤摘要】
一种基于智能过滤的电力数据关联查询的方法及装置
:
[0001]本专利技术涉及大数据处理
,具体涉及一种基于智能过滤的电力数据关联查询的方法及装置。
技术介绍
:
[0002]电力大数据主要来源于电力系统发、输、变(配)、用各个环节,涵盖电力生产、电网运行、企业管理及营销服务等业务领域。长期以来电力系统分专业开展信息化建设,导致电力各专业大多自成体系,数据彼此互相独立,各自存储于不同的平台系统,形成信息孤岛。主要体现三类特点:一是服务器设备的“云化”的快速发展,海量存储成为可能,电力各专业的数据埋点大量增加,数据存储量呈现几何性增加。二是电力数据类型多,既有等长文本形式数据,还有混杂中西文及特殊符号的非结构化数据。三是不同专业数据模型、存储规范存在差异,对同一实体描述不一致,加之部分数据有人工录入,传统的精准匹配方式存在覆盖率低等缺陷,难以有效实现同一实体数据关联。
[0003]随着电力数字化转型的快速推进,数据关联融合的难度持续增加,高度依赖计算资源和存储资源的扩充,难以充分发挥数据关联融合的倍增效力。在电力数据关联过程中,与一般开放领域不同,电力行业数据相似性连接涉及特定领域知识,有其自身的显著特点。目前电力领域,尚没有高效的数据关联查询相关的研究。现有的数据关联技术主要是基于过滤
‑
验证框架,但过滤方式方法缺乏对电力数据针对性的开发与调整,而且在精准匹配环节普遍存在关联数据准确性低、完整性不高的问题。2019年电力技术期刊发表了《基于编辑距离的地址模糊匹配技术》文章,解决了电力客服数 ...
【技术保护点】
【技术特征摘要】
1.一种基于智能过滤的电力数据关联查询的方法,其特征在于,包括如下步骤:步骤S1:样本数据输入;首先将覆盖目标类型的n组样本训练数据{R
n
,S
n
}={(r1,s1),(r2,s2),(r3,s3),
…
,(r
n
,s
n
)},集中传输到统一的数据分析平台,形成待关联查询的样本训练集;步骤S2:样本数据清洗;基于正则表达式对n组样本训练集进行数据清洗,剔除数据中的冗余无效数据,去除样本数据中的空字符和中英文标点符号;去除其他标点符号及特殊字符;对数据集中英文和数字的格式进行转换,将半角转换为全角,使字母和数字与汉字一样占据着等宽的位置;最后输出清洗后的n组样本训练数据{R
n
,S
n
};步骤S3:特征参数提取;基于Sigmoid函数方法,首先对清洗后的n组样本训练集{R
n
,S
n
}进行特征值计算,包括计算数据量alpha、字符串平均长度length、字符串复杂度complexity,然后对特征值进行归一化处理,输出数据集特征参数{α
n
,l
n
,f
n
};步骤S4:构建过滤策略组合库;首先输入已知n组样本训练集{R
n
,S
n
}及其对应的特征参数集{α
n
,l
n
,f
n
},然后基于特征参数的不同,采用遍历方法迭代训练各类单一过滤策略集(θ
i
,q
i
),以获得不同单一过滤策略下的过滤效率指数w,输出对应的过滤效率指数集合k;通过评估过滤效率指数w的大小,形成最优单一过滤策略集合kk;进一步通过引入综合过滤效率阈值形成n组样本训练集的过滤策略组合矩阵kn,构建电力系统数据的过滤策略组合库;步骤S5:过滤策略实施;引入新的测试集E,利用步骤S3提取测试集的特征参数,并对过滤策略组合库的训练集的特征参数实施匹配,基于欧式距离d最小原则,从组合库中获取相对应的过滤策略组合,表示为该测试集的最优过滤策略;详细步骤如下:步骤S5.1:提取测试集的特征参数;对新的测试集进行清洗,并基于Sigmoid函数方法对新的测试数据集进行特征值的计算,然后对特征值作归一化处理,输出数据集特征参数(α,l,f);步骤S5.2:计算特征参数的欧式距离;输入新的测试集的特征参数值(α,l,f),利用欧式距离公式,依次与组合库K
n
特征参数值[(α1,l1,f1),(α2,l2,f2),(α3,l3,f3),
…
,(α
n
,l
n
,f
n
)]进行逐一计算,并输出计算结果d
n
=(d1,d2,d3,
…
,d
n
),计算公式:步骤S5.3:输出测试集的过滤策略组合;基于欧式距离d最小原则,从欧式距离结果集d
n
=(d1,d2,d3,
…
,d
n
)中选择最小值d=Min(d
n
),同时选择距离最小值的样本训练集相对应的过滤策略组合θ
n
为该新的测试集的过滤策略,并输出过滤策略θ
n
,为后续实施过滤提供策略方案;步骤S5.4:实施过滤策略组合;输入测试集E,并利用上述步骤输出的最优过滤策略组合θ
n
,通过多种过滤策略最大程度剔除掉不匹配的数据集合,保留可能匹配的数据集合,最终生成数据候选集E
’
;步骤S6:精准匹配;利用字符串模糊匹配模型,即:编辑距离算法,对上述步骤生成的候选集E
’
实施精准匹配,得到匹配结果集F;详细步骤如下:步骤S6.1:对候选集E
’
的字符串的中文信息转化成拼音,保留拼音和文本两组数据;步骤S6.2:基于最小编辑距离法,对拼音、文本两组数据计算出两个字符串间需要删
除、增加或修改的最小字符数,即最小编辑距离;步骤S6.3:根据最小编辑距离与地址长度的比值,计算两个字符串间拼音和文本不同形式下的相似度;步骤S6.4:输出相似度阈值符合标准所有相似的字符串。2.根据权利要求1所述一种基于智能过滤的电力数据关联查询的方法,其特征在于,所述步骤S3包括如下具体过程:步骤S3.1:特征值计算;通过对n组样本训练集{R
n
,S
n
}的数据量alpha、平均长度length和复杂(complexity进行逐一计算,得到n组特征值{α
n
,l
n
,f
n
};其中,α为数据集包含文本个数;l为数据集字符串长度平均值;字符复杂度f为中文、英文和数字的数量,字符复杂度f=0.2*中文概率+0.4*英文概率+0.4*数字概率;步骤S3.2:特征值归一化处理;数据量α:使用Sigmoid函数将数据量(α)进行参数归一化处理;字符长度l:使用Sigmoid函数将字符长度(l)进行参数归一化处理;字符复杂度f:利用贝叶斯概率模型,基于数据集中文、英文、数字的概率分布情况,对字符复杂度进行参数归一化处理;步骤S3.3:输出n组样本训练集的特征参数集;{α
n
,l
n
,f
n
}={(α1,l1,f1),(α2,l2,f2),
…
,(α
n
,l
n
,f
n
)}。3.根据权利要求1所述一种基于智能过滤的电力数据关联查询的方法,其特征在于,所述步骤S4包括如下具体过程:步骤S4.1:配置过滤策略参数;首先对多种过滤方法(θ)和q
‑
gram方法的q值进行组合适配,形成过滤策略组合{θ
×
q};然后基于q值对样本训练集{R
n
,S
n
}字符...
【专利技术属性】
技术研发人员:金鹏,杨菁,王宗伟,张全,赵郭燚,武鹏,姜冬,卜晓阳,苏媛,郝景昌,冉晶晶,任海洋,刘佳,
申请(专利权)人:国家电网有限公司客户服务中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。