一种公共安全知识图谱构建的方法技术

技术编号:20545939 阅读:20 留言:0更新日期:2019-03-09 18:52
本发明专利技术公开了一种公共安全知识图谱构建的方法,包括:步骤一,根据公共安全领域所涵盖的数据来源以及业务特征进行本体建模;步骤二,从当前公共安全数据源进行知识抽取;步骤三,通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识进行存储;步骤四,将从各数据源采集的知识进行知识融合;步骤五,对完成知识融合的知识图谱进行知识加工。本发明专利技术在数据源足够支撑的情况下,使得覆盖公共安全领域的知识更加全面。

A Method of Constructing Knowledge Map of Public Safety

The invention discloses a method for constructing public security knowledge atlas, which includes: step 1, ontology modeling according to data sources and business characteristics covered by the public security field; step 2, knowledge extraction from current public security data sources; step 3, knowledge extraction through the combination of graph database, relational database and document database. Row storage; Step 4, knowledge fusion from each data source; Step 5, knowledge map processing to complete knowledge fusion. The invention makes the knowledge covering the field of public safety more comprehensive when the data source is sufficiently supported.

【技术实现步骤摘要】
一种公共安全知识图谱构建的方法
本专利技术涉及公共安全领域以及语义网络领域,尤其涉及公共安全知识图谱构建方法。
技术介绍
随着大数据与人工智能的发展,知识图谱作为人工智能技术的重要组成部分,因其强大的语义处理、互联组织、信息检索以及知识推理能力,已经被广泛应用于智能搜索、人机问答、个性化推荐等方向,为医疗、金融等多个领域的知识化组织与智能化应用提供了技术基础。本质上,知识图谱是一张巨大的语义网络图,通过节点表示实体或者概念、边表示关系来描述真实世界中存在的各种实体或者概念以及其关系。公共安全领域随着大数据技术的深度应用,开启了新的纪元。通过有效地整合各类数据、构建多维分析模型等方式,提升了情报洞察、分析研判、侦查打击以及指挥管理的能力。但是随着数据融合的不断深入,业务建模的不断整合,公共安全大数据对更加深入地关联挖掘能力、更加智能化的预警预测能力以及更加全方位的分析研判能力的需求变得愈加迫切。由上可知,将知识图谱应用于公共安全领域,借助知识图谱强大的互联以及推理能力,进行关系深度挖掘、案情智能推理以及事件主动预测,是符合公共安全行业的发展趋势的。同时,公共安全大数据对海量数据的收集、整理以及归类,也为公共安全知识图谱的构建奠定了基础。但由于当前知识图谱作为全新的
,其在公共安全领域的应用几乎还处于空白阶段,且其构建技术多数还停留在常规的主体以及简单的关系,缺乏广泛性。
技术实现思路
本专利技术的目的在于提供一种公共安全知识图谱构建的方法,有效构建公共安全知识图谱。实现上述目的的技术方案是:一种公共安全知识图谱构建的方法,包括:步骤一,根据公共安全领域所涵盖的数据来源以及业务特征进行本体建模;步骤二,从当前公共安全数据源进行知识抽取;步骤三,通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识进行存储;步骤四,将从各数据源采集的知识进行知识融合;步骤五,对完成知识融合的知识图谱进行知识加工。优选的,所述的步骤一中,本体建模采用自顶向下与自底向上相结合的构建方式,包括:步骤S11,采用自顶向下的构建方式进行类以及类层次的构建:采用公共安全“人、事、物、点、组织”基本要素作为基础类,再根据数据源特征以及实际业务,从基础类开始,以多叉树的结构进行展开,构建类之间的层级关系,直到最小粒度;类以及类层次关系构建完毕后,进一步的构建类的交叉关系,包括互斥、交集、并集、补集以及继承关系;步骤S12,采用自顶向下与自底向上相结合的方式进行关系以及关系关联的构建:首先通过自顶向下的方式对基础的抽象关系进行构建,包括从属关系、互斥关系、等价关系以及冲突关系;再采用自底向上的方式,对于关系型数据源抽取其关联外键构建实例关系,非关系型数据源采用语义依存构建实例关系,且每一种实例关系至少对应一种抽象关系;步骤S13,采用自底向上的方式进行实体与属性构建:对于关系型数据源直接从数据表字段中抽取实体与属性,而对于非关系型数据源则通过语义依存分析进行聚类分析抽取实体与属性,且每个属性至少对应一个实体,每个实体至少属于一个类。优选的,所述步骤二中,知识抽取的数据源包括关系型数据以及非关系型数据;知识抽取的内容包含:实体、属性和关系;其中,关系型数据源的知识抽取采用数据治理以及资源描述框架技术,非关系型数据源知识抽取采用文本语义分析提取技术;对于抽取实体、关系以及属性,根据不同的数据来源以及抽取方式标识置信度。优选的,知识抽取的数据源中,关系型数据来自于数据仓库以及各业务系统数据库,非关系型数据来自文案、新闻;置信度的计算中,数据仓库的数据源可以基本视为完全信任,置信度为100,各业务系统数据库的置信度根据实际的数据完善度进行计算;而非关系型数据源,依据具体的知识抽取结果的质量评估进行计算。优选的,所述步骤三中,数据存储模式采用雪花型存储模式,以图数据库为中心,进行类以及类层级、实体以及实体的唯一标识、关系的存储;关系型数据库以及文档数据库作为外围数据存储,关系型数据库存储属性以及属性的层级关系,文档数据库存储文本以及文本关键词;关系型数据库、文档数据库通过实体的唯一标识与图数据库进行关联。优选的,所述步骤四中,知识融合指:通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;具体包括:步骤S41,对于全部共同唯一性属性值完全相同的两个实体,判断其共同非唯一性属性的值,当非唯一性属性值相同率达到某一阈值后,标识为相同实体;步骤S42,对于部分共同唯一性属性值完全相同的两个实体,标识为实体冲突关系;步骤S43,对于共同唯一性属性值完全不同,但非唯一性属性值相同率达到某一阈值的两个实体,标识为相似实体;步骤S44,对于所述步骤S41中相同的实体,判断当前实体与目标实体是否都存在某一属性,若存在,则将属性的值进行合并后去重,若不存在,则将当前实体的属性以及属性值添加到目标实体;步骤S45,对于所述步骤S41中相同的实体,判断当前实体与目标实体是否存在关联到某实体的相同关系,若不存在,则将目标实体与某实体关联此关系;对于当前实体与目标实体与某实体关联关系存在冲突的,将当前实体与目标实体取消相同实体标识,标识为冲突实体;步骤S46,对于所述步骤S45中完成关系合并的当前实体,删除其重复实体、属性以及关系。优选的,所述的步骤五中,通过知识推理技术进行知识补全以及冲突检测;知识补全包括对实体属性、属性未知属性值以及实体间未知关系进行补全;知识补全通过知识推理技术实现,且补全的知识仅针对知识推理结果为真且置信度为100的结果;冲突检测中,对存在冲突的知识进行甄别,对于存在冲突的知识,标识信度较低的知识为逻辑非。优选的,所述步骤五,包括:步骤S51,通过属性继承通过父类实体补全子类实体属性以及属性值,对于多继承的子类,继承其所有父类的属性以及属性值,对于同一属性父类属性值不唯一的,对属性值进行合并;步骤S52,通过逻辑归纳补全实体属性以及属性值,对于同类实体均包含的属性进行补全,对于同类实体同一属相的值均相同进行补全,但同类实体同一属相的值不同的仅补全属性;步骤S53,通过关系传递补全实体间关系,首先对连接两个直接关系为空的实体间的所有关系链进行抽象关系传递,针对传递结果为真的关系链,通过构建的实例关系进行推理,若推理结果依旧存在于实例关系中,则将此实例关系补全为实体间关系;步骤S54,冲突检测内容包括属性值冲突以及关系冲突;其中,属性值冲突包括:父类子类属性以及属性值不一致、同类公共属性值不一致、互斥类互斥属性值相同;关系冲突包括:关系链推理结果为非,以及相同关系链不同实体间结果不一致;步骤S55,对于存在冲突的知识,计算其置信度;多个冲突知识中:若某条知识置信度为100,则标记为真,其余知识标记为假;若不存在置信度为100的知识,则将置信度高于预设阈值的知识标记为真,低于预设阈值的知识标记为假,其余标记为未知。本专利技术的有益效果是:本专利技术通过有效准确的方法实现知识图谱的构建,在数据源足够支撑的情况下,使得覆盖公共安全领域的知识更加全面;同时,本专利技术具有很强的公共安全领域特色,对领域的描述更加深刻,与实际业务结合更加紧密;本专利技术具备较强的知本文档来自技高网...

【技术保护点】
1.一种公共安全知识图谱构建的方法,其特征在于,包括:步骤一,根据公共安全领域所涵盖的数据来源以及业务特征进行本体建模;步骤二,从当前公共安全数据源进行知识抽取;步骤三,通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识进行存储;步骤四,将从各数据源采集的知识进行知识融合;步骤五,对完成知识融合的知识图谱进行知识加工。

【技术特征摘要】
1.一种公共安全知识图谱构建的方法,其特征在于,包括:步骤一,根据公共安全领域所涵盖的数据来源以及业务特征进行本体建模;步骤二,从当前公共安全数据源进行知识抽取;步骤三,通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识进行存储;步骤四,将从各数据源采集的知识进行知识融合;步骤五,对完成知识融合的知识图谱进行知识加工。2.根据权利要求1所述的公共安全知识图谱构建的方法,其特征在于,所述的步骤一中,本体建模采用自顶向下与自底向上相结合的构建方式,包括:步骤S11,采用自顶向下的构建方式进行类以及类层次的构建:采用公共安全“人、事、物、点、组织”基本要素作为基础类,再根据数据源特征以及实际业务,从基础类开始,以多叉树的结构进行展开,构建类之间的层级关系,直到最小粒度;类以及类层次关系构建完毕后,进一步的构建类的交叉关系,包括互斥、交集、并集、补集以及继承关系;步骤S12,采用自顶向下与自底向上相结合的方式进行关系以及关系关联的构建:首先通过自顶向下的方式对基础的抽象关系进行构建,包括从属关系、互斥关系、等价关系以及冲突关系;再采用自底向上的方式,对于关系型数据源抽取其关联外键构建实例关系,非关系型数据源采用语义依存构建实例关系,且每一种实例关系至少对应一种抽象关系;步骤S13,采用自底向上的方式进行实体与属性构建:对于关系型数据源直接从数据表字段中抽取实体与属性,而对于非关系型数据源则通过语义依存分析进行聚类分析抽取实体与属性,且每个属性至少对应一个实体,每个实体至少属于一个类。3.根据权利要求1所述的公共安全知识图谱构建的方法,其特征在于,所述步骤二中,知识抽取的数据源包括关系型数据以及非关系型数据;知识抽取的内容包含:实体、属性和关系;其中,关系型数据源的知识抽取采用数据治理以及资源描述框架技术,非关系型数据源知识抽取采用文本语义分析提取技术;对于抽取实体、关系以及属性,根据不同的数据来源以及抽取方式标识置信度。4.根据权利要求3所述的公共安全知识图谱构建的方法,其特征在于,知识抽取的数据源中,关系型数据来自于数据仓库以及各业务系统数据库,非关系型数据来自文案、新闻;置信度的计算中,数据仓库的数据源可以基本视为完全信任,置信度为100,各业务系统数据库的置信度根据实际的数据完善度进行计算;而非关系型数据源,依据具体的知识抽取结果的质量评估进行计算。5.根据权利要求1所述的公共安全知识图谱构建的方法,其特征在于,所述步骤三中,数据存储模式采用雪花型存储模式,以图数据库为中心,进行类以及类层级、实体以及实体的唯一标识、关系的存储;关系型数据库以及文档数据库作为外围数据存储,关系型数据库存储属性以及属性的层级关系,文档数据库存储文本以及文本关键词;关系型数据库、文档数据库通过实体的唯一标识与图数据库进行关联。6.根据权利要求1所述的公共安全知识图谱构建的方法,其特征在于,所述步骤四中,...

【专利技术属性】
技术研发人员:周龙谢赟尹淑平
申请(专利权)人:上海德拓信息技术股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1