基于知识图谱技术的海量非结构化配网数据集成方法技术

技术编号:16529090 阅读:55 留言:0更新日期:2017-11-09 20:52
本发明专利技术公开一种基于知识图谱技术的海量非结构化配网数据集成方法,数据采集单元采集各信息化系统的非结构化配网数据,并分别对各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;根据处理后的各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引;将基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;数据管理中心构建基于全局知识图谱的数据全局索引。本发明专利技术将分布式多源异构数据的采集、质量分析和数据清洗前置到各信息化系统,降低数据管理中心的数据融合计算量、存储压力和数据调度负担;利用基于全局知识图谱的数据全局索引对数据源进行集成,便于数据查询和提取,减小数据管理中心的工作量。

【技术实现步骤摘要】
基于知识图谱技术的海量非结构化配网数据集成方法
本专利技术涉及数据融合与集成
,特别涉及一种基于知识图谱技术的海量非结构化配网数据集成方法。
技术介绍
电网包括营销系统、生产系统、配电数据采集与监控系统、以及电能表等信息化系统,为增强电网运营能力和扩充电力客户服务能力和质量,需要高效、快速地采集来自于配网设备的海量数据,并结合营销系统、生产系统等业务系统数据,并对数据进行有效识别和过滤,最终输出有利于电力运营、提高客户服务质量和服务水平的相关数据。从各个信息化系统采集到的配网数据可分为两类,一种是结构化数据,如数据或符号类数据,另一种是非结构化数据,如用户语音、图像、文本等。现有的非结构化配网数据的集成方法是建立一个统一的数据中心平台,采用数据适配器等技术将采集到的非结构化数据拷贝到数据中心平台,然后对数据进行清洗后集成,从而解决各部门之间频繁的数据交换的需求。然而,这种方法一方面普遍在数据中心进行集中数据清洗,导致数据中心清洗量大,集成速度慢,无法满足海量的非结构化数据的集成要求;另一方面,各个信息化系统的非结构化数据在业务逻辑、数据格式和存储上均存在差异,因此,当数据传输至数据中心平台后,不仅不利于海量数据的分类存储,还给数据提取和查询带来不便,大大增加了数据中心平台的工作量。
技术实现思路
为解决上述技术问题,本专利技术提供一种基于知识图谱技术的海量非结构化配网数据集成方法。根据本专利技术的实施例,提供了一种基于知识图谱技术的海量非结构化配网数据集成方法,包括:由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引,所述基于局部知识图谱的数据局部索引包括:所述各信息化系统的局部知识图谱和局部数据索引表;将所述基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;由所述数据管理中心构建基于全局知识图谱的数据全局索引,所述基于全局知识图谱的数据全局索引包括全局知识图谱和全局数据索引表。进一步地,所述根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引的步骤包括:对处理后的所述各信息化系统的非结构化配网数据进行实体提取,以获取所述各信息化系统的非结构化配网数据的实体库,所述实体库包括所述各信息化系统的非结构化配网数据的实体、类和属性信息;根据所述实体库中各实体的关系,构建所述局部知识图谱;以所述实体库中各实体的实体名为关键词,构建局部数据索引表,所述局部数据索引表包括与所述实体库中各实体相对应的局部索引信息,所述局部索引信息包括属性、实例、所属文本、数据源名称、所属数据库。进一步地,所述由数据管理中心构建基于全局知识图谱的数据全局索引的步骤包括:对所述各信息化系统的局部知识图谱进行冲突检测,所述冲突检测包括实体名冲突检测、上下位关系冲突监测、单值属性冲突检测和多值属性冲突检测;如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突;根据检测和消除冲突过程中获得的所述局部知识图谱的实体、类、属性值和上下位关系,统一所述局部数据索引表中各实体的局部索引信息,并构建全局知识图谱;构建所述全局知识图谱与所述各信息化系统的局部知识图谱的映射关系;根据所述映射关系和所述局部数据索引表,以所述实体库中各实体的实体名为关键词,构建全局数据索引表,所述全局数据索引表包括与所述实体库中各实体相对应的全局索引信息,所述全部索引信息包括所属关系、所引发冲突、所述局部索引信息和所属局部知识图谱。进一步地,所述如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突的步骤包括:创建各信息化系统的局部知识图谱的优先级;如果所述各信息化系统的局部知识图谱之间存在实体名冲突或上下位关系冲突,则选择优先级最高的局部知识图谱的实体名或上下位关系作为所述全局知识图谱的实体名或者上下位关系,并修改对应的所述局部知识图谱的实体名和上下位关系;在各所述局部知识图谱中遍历单值属性,如果检测到某一所述单值属性为多值,选择优先级最高的局部知识图谱的属性值作为全局知识图谱中该属性的属性值,并修改相对应的所述局部知识图谱的属性值;如果检测到各所述局部知识图谱的多值属性值不一致,则将所有局部知识图谱的属性值合并,构成全局知识图谱的属性值,同时修改相对应的所述局部知识图谱的属性值。进一步地,所述对处理后的所述各信息化系统的非结构化配网数据进行实体提取的步骤包括:判断处理后的所述各信息化系统的非结构化配网数据是否为文本数据;如果处理后的所述各信息化系统的非结构化配网数据为文本数据,根据预设规则和词典方法提取实体、类和属性信息;如果处理后的所述各信息化系统的非结构化配网数据不是文本数据,将处理后的所述各信息化系统的非结构化配网数据转化为文本;对所述文本进行分词,采用基于自然语言处理的语法分析算法分析所述文本的句法结构和句中词语间的依存关系,然后提取实体、类和属性信息。进一步地,所述根据所述实体库中各实体的关系,构建所述局部知识图谱的步骤包括:将文本化的所述非结构化配网数据的字符串序列内一定长度的任意子序列进行内积,计算句子之间的相似性;将所述字符串序列的核作为支持向量机的核进行统计学习,获取所述实体库中各实体关系,采用下式所示的三元组构建所示局部知识图谱:GL=(E,R,S)其中,GL为所述局部知识图谱;E={e1,e2,…,e|E|}为所述实体库中各实体的集合,共包含|E|种不同的实体;R={r1,r2,…,r|R|}是所述实体库中各实体关系的集合,共包含|R|种不同的实体关系;代表所述局部知识图谱中的三元组集合。进一步地,所述实体名冲突检测的方法包括:根据下式计算某一所述局部知识图谱的实体A与其它所述局部知识图谱的实体B的相似度;Sim(A,B)=Dis(LA,LB)+Dis(SA,SB)其中,Sim(A,B)为所述实体A与所述实体B的相似度;Dis(LA,LB)为所述实体A的类LA与所述实体B的类LB的距离;Dis(SA,SB)为所述实体A的属性SA与所述实体B的属性SB的距离;如果所述实体A与所述实体B的相似度大于阈值时,判断所述实体A与所述实体B的实体名是否相同;如果所述实体A与所述实体B的实体名相同,则检测结果为存在实体名冲突。进一步地,所述上下位关系冲突监测的方法包括:提取某一所述局部知识图谱中的实体A的上下位关系图;在其它所述局部知识图谱中查找出与所述实体A相关的上下位关系实体集合,并提取所述上下位关系实体集合中各实体的上下位关系图;根据下式得到合并后的上下位关系图;G=GA∪Gq1∪Gq2…∪Gqn其中,G为合并后的上下位关系图;GA为所述实体A的上下位关系图;Gq1、Gq2…Gqn分别为取所述上下位关系实体集合中各实体的上下位关系图,n为所述上下位关系实体集合中的实体数量;删除所述合并后的上下位关系图中所有入度为零的顶点和相关的出边,直至所述合并后的上下位关系图中无顶点输出;如果所述合并后的上下位关系图中的结点均被删除,则检测结果为不存在上下位关系冲突;如果所述合并后的上下位关系图中至少存在一个结点,则检测结果为存在上下位关系冲突。进一步地,所述方本文档来自技高网...
基于知识图谱技术的海量非结构化配网数据集成方法

【技术保护点】
一种基于知识图谱技术的海量非结构化配网数据集成方法,其特征在于,包括:由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引,所述基于局部知识图谱的数据局部索引包括:所述各信息化系统的局部知识图谱和局部数据索引表;将所述基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;由所述数据管理中心构建基于全局知识图谱的数据全局索引,所述基于全局知识图谱的数据全局索引包括全局知识图谱和全局数据索引表。

【技术特征摘要】
1.一种基于知识图谱技术的海量非结构化配网数据集成方法,其特征在于,包括:由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引,所述基于局部知识图谱的数据局部索引包括:所述各信息化系统的局部知识图谱和局部数据索引表;将所述基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;由所述数据管理中心构建基于全局知识图谱的数据全局索引,所述基于全局知识图谱的数据全局索引包括全局知识图谱和全局数据索引表。2.根据权利要求1所述的方法,其特征在于,所述根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引的步骤包括:对处理后的所述各信息化系统的非结构化配网数据进行实体提取,以获取所述各信息化系统的非结构化配网数据的实体库,所述实体库包括所述各信息化系统的非结构化配网数据的实体、类和属性信息;根据所述实体库中各实体的上下位关系,构建所述局部知识图谱;以所述实体库中各实体的实体名为关键词,构建局部数据索引表,所述局部数据索引表包括与所述实体库中各实体相对应的局部索引信息,所述局部索引信息包括属性、实例、所属文本、数据源名称、所属数据库。3.根据权利要求1所述的方法,其特征在于,所述由数据管理中心构建基于全局知识图谱的数据全局索引的步骤包括:对所述各信息化系统的局部知识图谱进行冲突检测,所述冲突检测包括实体名冲突检测、上下位关系冲突监测、单值属性冲突检测和多值属性冲突检测;如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突;根据检测和消除冲突过程中获得的所述局部知识图谱的实体、类、属性值和上下位关系,统一所述局部数据索引表中各实体的局部索引信息,并构建全局知识图谱;构建所述全局知识图谱与所述各信息化系统的局部知识图谱的映射关系;根据所述映射关系和所述局部数据索引表,以所述实体库中各实体的实体名为关键词,构建全局数据索引表,所述全局数据索引表包括与所述实体库中各实体相对应的全局索引信息,所述全部索引信息包括所属关系、所引发冲突、所述局部索引信息和所属局部知识图谱。4.根据权利要求3所述的方法,其特征在于,所述如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突的步骤包括:创建各信息化系统的局部知识图谱的优先级;如果所述各信息化系统的局部知识图谱之间存在实体名冲突或上下位关系冲突,则选择优先级最高的局部知识图谱的实体名或上下位关系作为所述全局知识图谱的实体名或者上下位关系,并修改对应的所述局部知识图谱的实体名和上下位关系;在各所述局部知识图谱中遍历单值属性,如果检测到某一所述单值属性为多值,选择优先级最高的局部知识图谱的属性值作为全局知识图谱中该属性的属性值,并修改相对应的所述局部知识图谱的属性值;如果检测到各所述局部知识图谱的多值属性值不一致,则将所有局部知识图谱的属性值合并,构成全局知识图谱的属性值,同时修改相对应的所述局部知识图谱的属性值。5.根据权利要求2所述的方法,其特征在于,所述对处理后的所述各信息化系统的非结构化配网数据进行实体提取的步骤包括:判断处理后的所述各信息化系统的非结构化配网数据是否为文本数据;如果处理后的所述各信息化系统的非结构化配网数据为文本数据,根据预设规则和词典方法提取实体、类和属性信息;如果处理后的所述各信息化系统的非结构化配网数据不是文本数据,将处理后的所述各信息化系统的非结构化配网数据转化为文本;对所述文本进...

【专利技术属性】
技术研发人员:曹敏邹京希唐立军赵旭周年荣魏玲沈鑫
申请(专利权)人:云南电网有限责任公司电力科学研究院
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1