一种知识图谱构建方法及装置制造方法及图纸

技术编号:33862684 阅读:19 留言:0更新日期:2022-06-18 10:53
本发明专利技术公开了一种知识图谱构建方法及装置,包括以下步骤:S1、获取信号数据;S2、根据经验和知识构建信号本体知识模型,描述信号数据中的实体、属性和关系;S3、根据深度学习知识模型抽取实体;S4、配置数据源信息,解析实体数据字段,导入信号数据,根据本体知识模型配置本体和实体以及本体和实体关系映射规则;S5、根据本体和实体关系映射规则,解析目标数据,抽取出实体、属性以及实体间的相互关系,存入图数据库,得到目标数据知识图谱。本发明专利技术能够有效利用信号信息数据进行深度挖掘分析,为数据分析人员提供准确、全面的信号信息知识库,提升数据质量和价值。升数据质量和价值。升数据质量和价值。

【技术实现步骤摘要】
一种知识图谱构建方法及装置


[0001]本专利技术涉及信号与信息处理、人工智能领域,特别是涉及一种知识图谱构建方法及装置。

技术介绍

[0002]随着传感器的发展,信号数据呈现数据量大并且数据质量不高特点,大部分情况下只能孤立的进行数据分析,关联融合分析弱。而通过人工分析面临数据挤压多造成效率不高、个人经验依赖导致数据分析准度低等问题。因此急需对信号数据进行深度挖掘分析,发现信号数据隐藏信息,发挥数据价值,提升数据分析深度和效率。
[0003]利用知识图谱技术可以解决数据关联低、深度不够等问题,采用基于图模型的数据组织对数据进行关联分析,建立信号信息知识库。目前目标领域知识图谱较少,主要基于公开数据进行分析,且数据源单一无法适用现实数据灵活变化的特点。在此基础上,进行信号数据知识图谱的构建,对信号数据进行关联分析等,多角度多层次的分析数据,提升信号数据融合处理能力。

技术实现思路

[0004]针对现有技术中的上述不足,本专利技术提供的一种知识图谱构建方法及装置解决了目标领域知识图谱较少,主要基于公开数据进行分析,且数据源单一无法适用现实数据灵活变化的问题。
[0005]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种知识图谱构建方法,包括以下步骤:
[0006]S1、获取信号数据;
[0007]S2、根据经验和知识构建信号本体知识模型,描述信号数据中的实体、属性和关系;
[0008]S3、根据深度学习知识模型抽取实体;
[0009]S4、配置数据源信息,解析实体数据字段,导入信号数据,根据本体知识模型配置本体和实体以及本体和实体关系映射规则;
[0010]S5、根据本体和实体关系映射规则,解析目标数据,抽取出实体,属性以及实体间的相互关系,存入图数据库,得到目标数据知识图谱。
[0011]进一步地:所述信号数据包括信号特征数据、设备数据,其数据结构包括结构化、半结构化和非结构化数据。
[0012]进一步地:所述步骤S2具体为:根据经验和知识,预先研究分析目标业务数据,对目标数据中的实体、属性和关系进行定义,形成信号本体知识模型。
[0013]进一步地:所述步骤S3具体为:利用BERT模型对文本语句的语义理解进行encoding,将encoding进行字符级别和词级别融合后,利用BiLSTM模型对文本语句上下文信息提取,在BiLSTM之后接CRF来辅助实体识别,实体识别部分的标注方式是BIO;最后针对
embedding人为的添加小尺度的扰动n,进行对抗训练,增强模型的泛化功能,再对目标的半结构化文本数据使用Bert+LSTM+CRF模型抽取目标的数据形成自动标注数据。
[0014]进一步地:所述步骤S4中配置数据源信息具体为:目标本体知识模型,配置本体和实体、本体关系和实体关系映射规则,配置样式为本体:本体属性:数据字段,本体1:关系:本体2。
[0015]进一步地:所述步骤S4和步骤S5之间还包括步骤:将本体和实体关系映射规则存储到数据库中,生成抽取模板。
[0016]进一步地:所述步骤S5具体为:根据本体和实体关系映射规则,或根据抽取模板,解析目标数据,抽取出实体、属性以及实体间的关系,并对实体进行去重、融合、消歧处理,存入图数据库,形成目标数据知识图谱。
[0017]一种知识图谱构建装置,其特征在于,包括:
[0018]信号数据获取模块,用于获取信号数据;
[0019]知识建模模块,用于构建本体;
[0020]实体关系标注模块,用于对非结构化和半结构化的人工标注和自动标注;
[0021]知识抽取模块,用于对信号数据进行实体和关系的抽取,将实体和关系根据配置与本体和本体关系关联起来,形成实体和实体关系;
[0022]知识图谱存储模块,用于对知识抽取模块抽取的知识数据进行持久化的图存储,便于图的遍历和探索;
[0023]知识推理模块,用于根据图中已有实体关系和规则推理出新的知识关系;
[0024]知识图谱应用模块,用于知识图谱检索、可视化拓扑展示、知识寻径和知识问答。
[0025]进一步地:所述本体包括本体名称、本体属性定义,关系名称,关系指向的本体的定义。
[0026]本专利技术的有益效果为:本专利技术通过一系列的自动化和半自动化的技术手段对多源异构目标数据进行抽取融合,形成信号领域数据知识图谱,实现信号知识全貌,并提供基于图谱关联关系的推荐结果,挖掘目标之间的隐藏关联关系。本专利技术能够有效利用信号信息数据进行深度挖掘分析,为数据分析人员提供准确、全面的信号信息知识库,提升数据质量和价值。
附图说明
[0027]图1是本专利技术的知识图谱构建方法流程图;
[0028]图2是本专利技术的知识图谱构建装置示意图;
[0029]图3是本专利技术的目标大数据半结构化知识实体抽取模型示意图。
具体实施方式
[0030]下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。
[0031]本专利技术提出了一种知识图谱的构建方法,包括:
[0032]第一步,从信号数据获取模块获取信号相关数据,如信号特征数据、设备数据等,数据结构多样,包括结构化、半结构化和非结构化数据。
[0033]第二步,领域专家根据长期积累的经验和知识,预先研究分析目标业务数据,对目标数据中的实体、属性和关系进行定义,形成信号本体知识模型。
[0034]目标本体知识模型主要包含三个核心构件:本体对象(Object)、本体属性(Properties)、本体关系(link)。本体对象:域(domain)中感兴趣的对象,类中的一个实例,如G

21E Turbo Goose就是水陆两栖飞机的一个对象。本体属性:即数据属性,数据属性表示一个对象成员的属性,丰富对象的信息。本体关系:指的是Object上的二元关系。
[0035]第三步,根据深度学习知识模型抽取实体。利用BERT模型对文本语句的语义理解进行encoding(编码),将encoding进行字符级别和词级别融合后,利用BiLSTM模型对文本语句上下文信息提取,在BiLSTM之后接CRF来辅助实体识别,实体识别部分的标注方式是BIO;最后针对embedding(嵌入)人为的添加小尺度的扰动n,进行对抗训练,增强模型的泛化功能。再对目标的半结构化文本数据使用Bert+LSTM+CRF模型抽取目标的数据形成自动标注数据。
[0036]第四步,配置数据源信息,支持Excel、CSV、JSON、MySql和Postgresql格式的数据。根据第二步构建的目标本体知识模型,配置本体和实体、本体关系和实体关系映射规则,配置样式为本体:本体属性:数据字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括以下步骤:S1、获取信号数据;S2、根据经验和知识构建信号本体知识模型,描述信号数据中的实体、属性和关系;S3、根据深度学习知识模型抽取实体;S4、配置数据源信息,解析实体数据字段,导入信号数据,根据本体知识模型配置本体和实体以及本体和实体关系映射规则;S5、根据本体和实体关系映射规则,解析目标数据,抽取出实体、属性以及实体间的相互关系,存入图数据库,得到目标数据知识图谱。2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述信号数据包括信号特征数据、设备数据,其数据结构包括结构化、半结构化和非结构化数据。3.根据权利要求1所述的知识图谱构建方法,其特征在于,所述步骤S2具体为:根据经验和知识,预先研究分析目标业务数据,对目标数据中的实体、属性和关系进行定义,形成信号本体知识模型。4.根据权利要求1所述的知识图谱构建方法,其特征在于,所述步骤S3具体为:利用BERT模型对文本语句的语义理解进行encoding,将encoding进行字符级别和词级别融合后,利用BiLSTM模型对文本语句上下文信息提取,在BiLSTM之后接CRF来辅助实体识别,实体识别部分的标注方式是BIO;最后针对embedding人为的添加小尺度的扰动n,进行对抗训练,增强模型的泛化功能,再对目标的半结构化文本数据使用Bert+LSTM+CRF模型抽取目标的数据形成自动标注数据。5.根据权利要...

【专利技术属性】
技术研发人员:阳承毅王圣川蒋美菊张俊钟夫潘宇鹏
申请(专利权)人:电信科学技术第五研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1