一种基于多源异构电力数据的数据关联方法技术

技术编号：35554640 阅读：16 留言：0更新日期：2022-11-12 15:35

本申请提供一种基于多源异构电力数据的数据关联方法，目的是为了解决电力数据在不同数据源中表示不同的问题，该方法包括获取数据源中的数据；通过特征工程对各数据源中的各项数据分别进行属性提取；将锚点数据源中各项数据的属性的特征向量分别通过量化映射到离散子空间，生成与各项数据的属性相对应的代表向量和离散子空间的倒排列表；将待匹配数据源中各项数据的属性相对应的特征向量与锚点数据源中各项数据的属性相对应的代表向量进行匹配；通过属性相似度度量公式分别计算待匹配数据源中相同属性的待融合数据的相似度得分。能够将多个不同维度数据源中的数据进行特征向量化处理，并利用平滑加权杰卡德(Jaccard)算法提升其准确率。法提升其准确率。法提升其准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多源异构电力数据的数据关联方法

[0001]本申请涉及电力数据处理
，尤其涉及一种基于多源异构电力数据的数据关联方法。

技术介绍

[0002]在电网系统中数据复杂多样，还具有实时性、分布式等特性，不仅数据来源多样，而且数据也存在很大差异，结构化数据、半结构化数据和非结构化数据共存。在不同的数据源中同一数据可能存在不同的表示方法，在融合不同数据源的时，需要将同一数据识别出来，这一问题被称为数据关联问题。如果能够识别不同数据源中的数据，并融合数据属性，就能获取更完整和准确的信息。
[0003]相关技术中，数据关联方法一般基于字符串匹配，此类数据关联方法能够覆盖的维度（一般仅限名称、地址）较为单一，而电力档案数据和其他非电力数据的质量一般都参差不齐，需要尽可能使用多个维度进行关联并交叉校验，基于字符串匹配的数据关联方法难以保证数据关联的准确率。

技术实现思路

[0004]为了解决电力数据在不同数据源中表示不同的问题，本申请实施例提供一种基于多源异构电力数据的数据关联方法，包括如下步骤：步骤1：获取锚点数据源中的数据和待匹配数据源中的数据，所述锚点数据源包括电力营销档案，所述待匹配数据源包括机构工商信息档案和个人信息档案；步骤2：通过特征工程对各数据源中的各项数据分别进行属性提取，得到各项数据所对应的属性；步骤3：将各项数据的属性分别进行特征向量化处理，生成与各项数据的属性相对应的特征向量；步骤4：将锚点数据源中各项数据的属性的特征向量分别通过量化映射到离散子空间，生成与各项数据的属性相...

【技术保护点】

【技术特征摘要】
1.一种基于多源异构电力数据的数据关联方法，其特征在于，包括如下步骤：步骤1：获取锚点数据源中的数据和待匹配数据源中的数据，所述锚点数据源包括电力营销档案，所述待匹配数据源包括机构工商信息档案和个人信息档案；步骤2：通过特征工程对各数据源中的各项数据分别进行属性提取，得到各项数据所对应的属性；步骤3：将各项数据的属性分别进行特征向量化处理，生成与各项数据的属性相对应的特征向量；步骤4：将锚点数据源中各项数据的属性的特征向量分别通过量化映射到离散子空间，生成与各项数据的属性相对应的代表向量和离散子空间的倒排列表；步骤5：将待匹配数据源中各项数据的属性相对应的特征向量与锚点数据源中各项数据的属性相对应的代表向量进行匹配；若不存在相同属性，则将待匹配数据源中的数据与锚点数据源中的数据进行融合；若存在相同属性，则将待匹配数据源中相同属性的特征向量与锚点数据源中相同属性的代表向量取点积，再根据离散子空间的倒排列表，匹配相应子空间的特征向量，选取点积最大的特征向量对应的数据作为待融合数据，执行步骤6；步骤6：通过属性相似度度量公式分别计算待匹配数据源中相同属性的待融合数据的相似度得分和锚点数据源中相同属性数据的相似度得分，舍弃相似度得分低的数据，保留相似度得分高的数据，再执行步骤5；其中，属性相似度度量公式为：式中，表示数据源一中的第条数据与数据源二中的第条数据的属性相似度得分，数据源一包含条属性，数据源二包含条属性,和的取值范围分别为和；数据源一的第条数据拥有属性，，
…
，分别对应值为，，
…
，，数据源二的第条数据拥有属性，，
…
...

【专利技术属性】
技术研发人员：毛苗，伍歆，马骏，王向阳，熊厚辉，
申请(专利权)人：湖南能源大数据中心有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人