一种基于智能过滤的电力数据关联查询的方法及装置制造方法及图纸

技术编号：34398288 阅读：14 留言：0更新日期：2022-08-03 21:34

本发明专利技术涉及大数据处理技术领域，具体涉及一种基于智能过滤的电力数据关联查询的方法及装置。一种基于智能过滤的电力数据关联查询的方法，包括如下步骤：样本数据输入，形成待关联查询的样本训练集；样本数据清洗；特征参数提取；构建过滤策略组合库；过滤策略实施；精准匹配；本发明专利技术一是解决亿级以上电力数据关联匹配计算量大，时效性差的问题，大幅提升非结构化数据匹配的质量和效率；二是针对不同类型数据能够产生优化的过滤组合，避免单一过滤策略无法有效剔除非匹配数据的问题，提升过滤策略对异构电力数据的适配性；三是构建了可操作的关联匹配评价算法，从匹配质量和计算效率两个角度去评估过滤方法，具备工程实用价值。具备工程实用价值。具备工程实用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于智能过滤的电力数据关联查询的方法及装置

：
[0001]本专利技术涉及大数据处理
，具体涉及一种基于智能过滤的电力数据关联查询的方法及装置。

技术介绍
：
[0002]电力大数据主要来源于电力系统发、输、变(配)、用各个环节，涵盖电力生产、电网运行、企业管理及营销服务等业务领域。长期以来电力系统分专业开展信息化建设，导致电力各专业大多自成体系，数据彼此互相独立，各自存储于不同的平台系统，形成信息孤岛。主要体现三类特点：一是服务器设备的“云化”的快速发展，海量存储成为可能，电力各专业的数据埋点大量增加，数据存储量呈现几何性增加。二是电力数据类型多，既有等长文本形式数据，还有混杂中西文及特殊符号的非结构化数据。三是不同专业数据模型、存储规范存在差异，对同一实体描述不一致，加之部分数据有人工录入，传统的精准匹配方式存在覆盖率低等缺陷，难以有效实现同一实体数据关联。
[0003]随着电力数字化转型的快速推进，数据关联融合的难度持续增加，高度依赖计算资源和存储资源的扩充，难以充分发挥数据关联融合的倍增效力。在电力数据关联过程中，与一般开放领域不同，电力行业数据相似性连接涉及特定领域知识，有其自身的显著特点。目前电力领域，尚没有高效的数据关联查询相关的研究。现有的数据关联技术主要是基于过滤
‑
验证框架，但过滤方式方法缺乏对电力数据针对性的开发与调整，而且在精准匹配环节普遍存在关联数据准确性低、完整性不高的问题。2019年电力技术期刊发表了《基于编辑距离的地址模糊匹配技术》文章，解决了电力客服数...

【技术保护点】

【技术特征摘要】
1.一种基于智能过滤的电力数据关联查询的方法，其特征在于，包括如下步骤：步骤S1：样本数据输入；首先将覆盖目标类型的n组样本训练数据{R
n
,S
n
}＝{(r1,s1),(r2,s2),(r3,s3),
…
,(r
n
,s
n
)}，集中传输到统一的数据分析平台，形成待关联查询的样本训练集；步骤S2：样本数据清洗；基于正则表达式对n组样本训练集进行数据清洗，剔除数据中的冗余无效数据，去除样本数据中的空字符和中英文标点符号；去除其他标点符号及特殊字符；对数据集中英文和数字的格式进行转换，将半角转换为全角，使字母和数字与汉字一样占据着等宽的位置；最后输出清洗后的n组样本训练数据{R
n
,S
n
}；步骤S3：特征参数提取；基于Sigmoid函数方法，首先对清洗后的n组样本训练集{R
n
,S
n
}进行特征值计算，包括计算数据量alpha、字符串平均长度length、字符串复杂度complexity，然后对特征值进行归一化处理，输出数据集特征参数{α
n
,l
n
,f
n
}；步骤S4：构建过滤策略组合库；首先输入已知n组样本训练集{R
n
,S
n
}及其对应的特征参数集{α
n
,l
n
,f
n
},然后基于特征参数的不同，采用遍历方法迭代训练各类单一过滤策略集(θ
i
,q
i
)，以获得不同单一过滤策略下的过滤效率指数w，输出对应的过滤效率指数集合k；通过评估过滤效率指数w的大小，形成最优单一过滤策略集合kk；进一步通过引入综合过滤效率阈值形成n组样本训练集的过滤策略组合矩阵kn，构建电力系统数据的过滤策略组合库；步骤S5：过滤策略实施；引入新的测试集E，利用步骤S3提取测试集的特征参数，并对过滤策略组合库的训练集的特征参数实施匹配，基于欧式距离d最小原则，从组合库中获取相对应的过滤策略组合，表示为该测试集的最优过滤策略；详细步骤如下：步骤S5.1：提取测试集的特征参数；对新的测试集进行清洗，并基于Sigmoid函数方法对新的测试数据集进行特征值的计算，然后对特征值作归一化处理，输出数据集特征参数(α,l,f)；步骤S5.2：计算特征参数的欧式距离；输入新的测试集的特征参数值(α,l,f)，利用欧式距离公式，依次与组合库K
n
特征参数值[(α1,l1,f1),(α2,l2,f2),(α3,l3,f3),
…
,(α
n
,l
n
,f
n
)]进行逐一计算，并输出计算结果d
n
＝(d1,d2,d3,
…
,d
n
)，计算公式：步骤S5.3：输出测试集的过滤策略组合；基于欧式距离d最小原则，从欧式距离结果集d
n
＝(d1,d2,d3,
…
,d
n
)中选择最小值d＝Min(d
n
)，同时选择距离最小值的样本训练集相对应的过滤策略组合θ
n
为该新的测试集的过滤策略，并输出过滤策略θ
n
，为后续实施过滤提供策略方案；步骤S5.4：实施过滤策略组合；输入测试集E，并利用上述步骤输出的最优过滤策略组合θ
n
，通过多种过滤策略最大程度剔除掉不匹配的数据集合，保留可能匹配的数据集合，最终生成数据候选集E
’
；步骤S6：精准匹配；利用字符串模糊匹配模型，即：编辑距离算法，对上述步骤生成的候选集E
’
实施精准匹配，得到匹配结果集F；详细步骤如下：步骤S6.1：对候选集E
’
的字符串的中文信息转化成拼音，保留拼音和文本两组数据；步骤S6.2：基于最小编辑距离法，对拼音、文本两组数据计算出两个字符串间需要删
除、增加或修改的最小字符数，即最小编辑距离；步骤S6.3：根据最小编辑距离与地址长度的比值，计算两个字符串间拼音和文本不同形式下的相似度；步骤S6.4：输出相似度阈值符合标准所有相似的字符串。2.根据权利要求1所述一种基于智能过滤的电力数据关联查询的方法，其特征在于，所述步骤S3包括如下具体过程：步骤S3.1：特征值计算；通过对n组样本训练集{R
n
,S
n
}的数据量alpha、平均长度length和复杂(complexity进行逐一计算，得到n组特征值{α
n
,l
n
,f
n
}；其中，α为数据集包含文本个数；l为数据集字符串长度平均值；字符复杂度f为中文、英文和数字的数量，字符复杂度f＝0.2*中文概率+0.4*英文概率+0.4*数字概率；步骤S3.2：特征值归一化处理；数据量α：使用Sigmoid函数将数据量(α)进行参数归一化处理；字符长度l：使用Sigmoid函数将字符长度(l)进行参数归一化处理；字符复杂度f：利用贝叶斯概率模型，基于数据集中文、英文、数字的概率分布情况，对字符复杂度进行参数归一化处理；步骤S3.3：输出n组样本训练集的特征参数集；{α
n
,l
n
,f
n
}＝{(α1,l1,f1),(α2,l2,f2),
…
,(α
n
,l
n
,f
n
)}。3.根据权利要求1所述一种基于智能过滤的电力数据关联查询的方法，其特征在于，所述步骤S4包括如下具体过程：步骤S4.1：配置过滤策略参数；首先对多种过滤方法(θ)和q
‑
gram方法的q值进行组合适配，形成过滤策略组合{θ
×
q}；然后基于q值对样本训练集{R
n
,S
n
}字符...

【专利技术属性】
技术研发人员：金鹏，杨菁，王宗伟，张全，赵郭燚，武鹏，姜冬，卜晓阳，苏媛，郝景昌，冉晶晶，任海洋，刘佳，
申请(专利权)人：国家电网有限公司客户服务中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人