一种基于关键字搜索的电网台账数据融合方法及装置制造方法及图纸

技术编号:21034242 阅读:30 留言:0更新日期:2019-05-04 05:25
本申请公开了一种基于关键字搜索的电网台账数据融合方法及装置,其中本申请提供的方法通过关键字准确匹配和首字母模糊匹配结合的方式,先通过关键字提取,剔除数据命名信息中与地域信息及设备信息无关的标识字词,通过关键字比对进行初次数据匹配关联,接着在通过首字母匹配方式,对初次数据匹配不成功的数据进行二次模糊匹配,降低了因人为输入错误导致数据匹配失败,产生新的“数据孤岛”的概率,也解决了对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致的现有的因数据命名异常导致的“数据孤岛”的处理效率低的技术问题。

A Method and Device for Data Fusion of Network Accounts Based on Keyword Search

【技术实现步骤摘要】
一种基于关键字搜索的电网台账数据融合方法及装置
本申请涉及数据融合领域,尤其涉及一种基于关键字搜索的数据融合方法及装置。
技术介绍
随着大数据技术的成熟,各地电网运维部门逐渐通过建立规范的数据库,以及通过数据融合的方式,建立以电网大数据为基础的电能质量监测系统。然而,各个数据库系统之间都是由不同的管理团队进行管理,且这些数据在进行融合之前都属于独立的、异构的数据,由于管理人员的个人偏好或录入信息时的人为失误,导致了即使是同一个数据对象,在不同的数据库系统中可能有不同命名的情况,最终导致这些命名异常的数据对象在数据融合时难以与相同的数据对象进行合并,也难以与其他合法的数据对象进行关联,形成了新的“数据孤岛”。然而,对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致了现有的因数据命名异常导致的“数据孤岛”的处理方式效率低的技术问题。
技术实现思路
本申请提供了一种基于关键字搜索的电网台账数据融合方法及装置,用于解决现有技术对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致了现有的因数据命名异常导致的“数据孤岛”的处理方式效率低的技术问题。有鉴于此,本申请第一方面提供了一种基于关键字搜索的电网台账数据融合方法,包括:获取各个数据库平台中的测点台账数据,并对所述测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;根据所述数据名关键字集合中的关键字元素,对各个所述数据名关键字集合进行初次匹配,将关键字匹配结果一致的所述测点台账数据关联到一个数据对象组;提取未合并的所述数据名关键字集合的首字母,根据所述数据名关键字集合的首字母与各个所述数据对象组元素的首字母进行二次匹配,若所述数据名关键字集合的首字母与所述数据对象组元素的首字母的匹配结果为一致,则将所述数据名关键字集合添加到所述数据对象组中;根据所述关键字元素和预置的数据命名模板,分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新。优选地,所述将所述数据名关键字集合添加到所述数据对象组中之后还包括:获取所述数据对象组中的各个测点台账数据的管理地域拓扑关系,通过数据比对,校验所述数据对象组中各个所述测点台账数据的管理地域拓扑关系与所述数据对象组的参考管理地域拓扑关系的一致性,若管理地域拓扑关系比对不一致,则将当前的测点台账数据从所述数据对象组中移除。优选地,所述分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新之后还包括:统计未合并到数据对象组的剩余测点台账数据,将所述剩余测点台账数据全部合并到未定义数据对象组。优选地,所述数据名关键字集合具体包括:测点地域信息、测点设备类型信息和测点设备参数信息。优选地,所述测点设备类型具体包括:变电站、输电线、配变设备和用户侧设备。本申请第二方面提供了一种基于关键字搜索的电网台账数据融合装置,包括:预处理模块,用于获取各个数据库平台中的测点台账数据,并对所述测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;初次关联模块,用于根据所述数据名关键字集合中的关键字元素,对各个所述数据名关键字集合进行初次匹配,将关键字匹配结果一致的所述测点台账数据关联到一个数据对象组;二次关联模块,用于提取未合并的所述数据名关键字集合的首字母,根据所述数据名关键字集合的首字母与各个所述数据对象组元素的首字母进行二次匹配,若所述数据名关键字集合的首字母与所述数据对象组元素的首字母的匹配结果为一致,则将所述数据名关键字集合添加到所述数据对象组中;数据关联处理模块,用于根据所述关键字元素和预置的数据命名模板,分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新。优选地,还包括:校验模块,用于获取所述数据对象组中的各个测点台账数据的管理地域拓扑关系,通过数据比对,校验所述数据对象组中各个所述测点台账数据的管理地域拓扑关系与所述数据对象组的参考管理地域拓扑关系的一致性,若管理地域拓扑关系比对不一致,则将当前的测点台账数据从所述数据对象组中移除。优选地,还包括:剩余数据统计模块,用于统计未合并到数据对象组的剩余测点台账数据,将所述剩余测点台账数据全部合并到未定义数据对象组。优选地,所述数据名关键字集合具体包括:测点地域信息、测点设备类型信息和测点设备参数信息。优选地,所述测点设备类型具体包括:变电站、输电线、配变设备和用户侧设备。从以上技术方案可以看出,本申请具有以下优点:本申请第一方面提供了一种基于关键字搜索的电网台账数据融合方法,包括:获取各个数据库平台中的测点台账数据,并对所述测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;根据所述数据名关键字集合中的关键字元素,对各个所述数据名关键字集合进行初次匹配,将关键字匹配结果一致的所述测点台账数据关联到一个数据对象组;提取未合并的所述数据名关键字集合的首字母,根据所述数据名关键字集合的首字母与各个所述数据对象组元素的首字母进行二次匹配,若所述数据名关键字集合的首字母与所述数据对象组元素的首字母的匹配结果为一致,则将所述数据名关键字集合添加到所述数据对象组中;根据所述关键字元素和预置的数据命名模板,分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新。本申请通过关键字准确匹配和首字母模糊匹配结合的方式,先通过关键字提取,剔除数据命名信息中与地域信息及设备信息无关的标识字词,通过关键字比对进行初次数据匹配关联,接着在通过首字母匹配方式,对初次数据匹配不成功的数据进行二次模糊匹配,降低了因人为输入错误导致数据匹配失败,产生新的“数据孤岛”的概率,也解决了对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致的现有的因数据命名异常导致的“数据孤岛”的处理效率低的技术问题。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1为本申请提供的一种基于关键字搜索的电网台账数据融合方法的第一个实施例的流程示意图;图2为本申请提供的一种基于关键字搜索的电网台账数据融合方法的第二个实施例的流程示意图;图3为本申请提供的一种基于关键字搜索的电网台账数据融合装置的结构示意图。具体实施方式本申请实施例提供了一种基于关键字搜索的电网台账数据融合方法及装置,用于解决现有技术对于数据命名异常导致的“数据孤岛”现象,现有的处理方法只能通过人工对异常数据逐一排查、比对并修正,费时费力,导致了现有的因数据命名异常导致的“数据孤岛”的处理方式效率低的技术问题。为使得本申请的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通本文档来自技高网...

【技术保护点】
1.一种基于关键字搜索的电网台账数据融合方法,其特征在于,包括:获取各个数据库平台中的测点台账数据,并对所述测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;根据所述数据名关键字集合中的关键字元素,对各个所述数据名关键字集合进行初次匹配,将关键字匹配结果一致的所述测点台账数据关联到一个数据对象组;提取未合并的所述数据名关键字集合的首字母,根据所述数据名关键字集合的首字母与各个所述数据对象组元素的首字母进行二次匹配,若所述数据名关键字集合的首字母与所述数据对象组元素的首字母的匹配结果为一致,则将所述数据名关键字集合添加到所述数据对象组中;根据所述关键字元素和预置的数据命名模板,分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新。

【技术特征摘要】
1.一种基于关键字搜索的电网台账数据融合方法,其特征在于,包括:获取各个数据库平台中的测点台账数据,并对所述测点台账数据的命名信息进行关键字提取处理,得到与各个测点台账数据相对应的数据名关键字集合;根据所述数据名关键字集合中的关键字元素,对各个所述数据名关键字集合进行初次匹配,将关键字匹配结果一致的所述测点台账数据关联到一个数据对象组;提取未合并的所述数据名关键字集合的首字母,根据所述数据名关键字集合的首字母与各个所述数据对象组元素的首字母进行二次匹配,若所述数据名关键字集合的首字母与所述数据对象组元素的首字母的匹配结果为一致,则将所述数据名关键字集合添加到所述数据对象组中;根据所述关键字元素和预置的数据命名模板,分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新。2.根据权利要求1所述的方法,其特征在于,所述将所述数据名关键字集合添加到所述数据对象组中之后还包括:获取所述数据对象组中的各个测点台账数据的管理地域拓扑关系,通过数据比对,校验所述数据对象组中各个所述测点台账数据的管理地域拓扑关系与所述数据对象组的参考管理地域拓扑关系的一致性,若管理地域拓扑关系比对不一致,则将当前的测点台账数据从所述数据对象组中移除。3.根据权利要求1所述的方法,其特征在于,所述分别对同一数据对象组中的所述测点台账数据的命名信息进行统一更新之后还包括:统计未合并到数据对象组的剩余测点台账数据,将所述剩余测点台账数据全部合并到未定义数据对象组。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述数据名关键字集合具体包括:测点地域信息、测点设备类型信息和测点设备参数信息。5.根据权利要求4所述的方法,其特征在于,所述测点设备类型具体包括:变电站、输电线、配变设备和用户侧...

【专利技术属性】
技术研发人员:陈冠缘田翔周刚马凯罗颖婷黄勇鄂盛龙徐思尧
申请(专利权)人:广东电网有限责任公司广东电网有限责任公司电力科学研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1