【技术实现步骤摘要】
基于知识图谱技术的海量非结构化配网数据集成方法
本专利技术涉及数据融合与集成
,特别涉及一种基于知识图谱技术的海量非结构化配网数据集成方法。
技术介绍
电网包括营销系统、生产系统、配电数据采集与监控系统、以及电能表等信息化系统,为增强电网运营能力和扩充电力客户服务能力和质量,需要高效、快速地采集来自于配网设备的海量数据,并结合营销系统、生产系统等业务系统数据,并对数据进行有效识别和过滤,最终输出有利于电力运营、提高客户服务质量和服务水平的相关数据。从各个信息化系统采集到的配网数据可分为两类,一种是结构化数据,如数据或符号类数据,另一种是非结构化数据,如用户语音、图像、文本等。现有的非结构化配网数据的集成方法是建立一个统一的数据中心平台,采用数据适配器等技术将采集到的非结构化数据拷贝到数据中心平台,然后对数据进行清洗后集成,从而解决各部门之间频繁的数据交换的需求。然而,这种方法一方面普遍在数据中心进行集中数据清洗,导致数据中心清洗量大,集成速度慢,无法满足海量的非结构化数据的集成要求;另一方面,各个信息化系统的非结构化数据在业务逻辑、数据格式和存储上均存在差异,因此,当数据传输至数据中心平台后,不仅不利于海量数据的分类存储,还给数据提取和查询带来不便,大大增加了数据中心平台的工作量。
技术实现思路
为解决上述技术问题,本专利技术提供一种基于知识图谱技术的海量非结构化配网数据集成方法。根据本专利技术的实施例,提供了一种基于知识图谱技术的海量非结构化配网数据集成方法,包括:由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网 ...
【技术保护点】
一种基于知识图谱技术的海量非结构化配网数据集成方法,其特征在于,包括:由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引,所述基于局部知识图谱的数据局部索引包括:所述各信息化系统的局部知识图谱和局部数据索引表;将所述基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;由所述数据管理中心构建基于全局知识图谱的数据全局索引,所述基于全局知识图谱的数据全局索引包括全局知识图谱和全局数据索引表。
【技术特征摘要】
1.一种基于知识图谱技术的海量非结构化配网数据集成方法,其特征在于,包括:由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引,所述基于局部知识图谱的数据局部索引包括:所述各信息化系统的局部知识图谱和局部数据索引表;将所述基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;由所述数据管理中心构建基于全局知识图谱的数据全局索引,所述基于全局知识图谱的数据全局索引包括全局知识图谱和全局数据索引表。2.根据权利要求1所述的方法,其特征在于,所述根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引的步骤包括:对处理后的所述各信息化系统的非结构化配网数据进行实体提取,以获取所述各信息化系统的非结构化配网数据的实体库,所述实体库包括所述各信息化系统的非结构化配网数据的实体、类和属性信息;根据所述实体库中各实体的上下位关系,构建所述局部知识图谱;以所述实体库中各实体的实体名为关键词,构建局部数据索引表,所述局部数据索引表包括与所述实体库中各实体相对应的局部索引信息,所述局部索引信息包括属性、实例、所属文本、数据源名称、所属数据库。3.根据权利要求1所述的方法,其特征在于,所述由数据管理中心构建基于全局知识图谱的数据全局索引的步骤包括:对所述各信息化系统的局部知识图谱进行冲突检测,所述冲突检测包括实体名冲突检测、上下位关系冲突监测、单值属性冲突检测和多值属性冲突检测;如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突;根据检测和消除冲突过程中获得的所述局部知识图谱的实体、类、属性值和上下位关系,统一所述局部数据索引表中各实体的局部索引信息,并构建全局知识图谱;构建所述全局知识图谱与所述各信息化系统的局部知识图谱的映射关系;根据所述映射关系和所述局部数据索引表,以所述实体库中各实体的实体名为关键词,构建全局数据索引表,所述全局数据索引表包括与所述实体库中各实体相对应的全局索引信息,所述全部索引信息包括所属关系、所引发冲突、所述局部索引信息和所属局部知识图谱。4.根据权利要求3所述的方法,其特征在于,所述如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突的步骤包括:创建各信息化系统的局部知识图谱的优先级;如果所述各信息化系统的局部知识图谱之间存在实体名冲突或上下位关系冲突,则选择优先级最高的局部知识图谱的实体名或上下位关系作为所述全局知识图谱的实体名或者上下位关系,并修改对应的所述局部知识图谱的实体名和上下位关系;在各所述局部知识图谱中遍历单值属性,如果检测到某一所述单值属性为多值,选择优先级最高的局部知识图谱的属性值作为全局知识图谱中该属性的属性值,并修改相对应的所述局部知识图谱的属性值;如果检测到各所述局部知识图谱的多值属性值不一致,则将所有局部知识图谱的属性值合并,构成全局知识图谱的属性值,同时修改相对应的所述局部知识图谱的属性值。5.根据权利要求2所述的方法,其特征在于,所述对处理后的所述各信息化系统的非结构化配网数据进行实体提取的步骤包括:判断处理后的所述各信息化系统的非结构化配网数据是否为文本数据;如果处理后的所述各信息化系统的非结构化配网数据为文本数据,根据预设规则和词典方法提取实体、类和属性信息;如果处理后的所述各信息化系统的非结构化配网数据不是文本数据,将处理后的所述各信息化系统的非结构化配网数据转化为文本;对所述文本进...
【专利技术属性】
技术研发人员:曹敏,邹京希,唐立军,赵旭,周年荣,魏玲,沈鑫,
申请(专利权)人:云南电网有限责任公司电力科学研究院,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。