一种反恐数据全局知识图谱构建及系统实现的方法技术方案

技术编号:38808941 阅读:24 留言:0更新日期:2023-09-15 19:47
本发明专利技术涉及一种反恐数据全局知识图谱构建及系统实现的方法,所述方法包括将马里兰全球反恐数据库与自定义数据库进行融合优化,得到全局数据库,并得到全局知识图谱,提取资源描述框架三元组;将资源描述框架三元组嵌入语义空间,通过语义空间对深度学习网络进行训练,得到多任务联合学习模型;将待识别词向量空间输入多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入全局知识图谱中。本发明专利技术利用了全局知识图谱,使得在训练、测试和查询中的知识库规模大幅缩小,精准度大幅提高,还能够填补全局知识图谱,本申请提供的技术方案利用事物的相关关系,快速判断、分析恐怖情况,极大的满足了当前的应用需求。用需求。用需求。

【技术实现步骤摘要】
一种反恐数据全局知识图谱构建及系统实现的方法


[0001]本专利技术属于大数据分析
,具体涉及一种反恐数据全局知识图谱构建及系统实现的方法。

技术介绍

[0002]知识图谱,也称作知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互关系。知识图谱是三元组的集合,其中三元组的形式是(主语,谓词,宾语),主语和宾语是实体,谓词是关系。每个三元组(例如(姓名,出生地,檀香山))表示一个事实。知识图谱可以应用于许多场景,比如在信息推荐系统中基于知识图谱进行信息推荐,或是在文本分类过程中基于知识图谱进行分类等,是当前各行各业处理各类数据的一种新兴的、重要的智能方法。知识图谱分为通用知识图谱和领域知识图谱,其中领域知识图谱汇集了一个领域内的专业知识,通过领域知识图谱,可以构建出一个领域内处理特定问题的智能系统。反恐数据全局知识图谱是一种由马里兰全球反恐数据库与自定义数据库库融合优化,结合知识图谱补全技术进行补全,所构建的一个领域知识图谱。不同于其他领域知识图谱,反恐数据知识图谱更为复杂,具体来讲,结构复杂,不同反恐数据间存在潜在关联,信息隐藏度高,有效信息提取难、精准度低。
[0003]相关技术中,现有的依据反恐数据知识图谱建立反恐数据全局知识图谱在补全和应用方面缺少相应的方法,导致反恐数据知识图谱精确度低,判断速度慢,难以满足当前的使用需求。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种反恐数据全局知识图谱构建及系统实现的方法,以解决现有技术中反恐数据知识图谱精确度低、判断速度慢,难以满足当前的使用需求的问题。
[0005]为实现以上目的,本专利技术采用如下技术方案:一种反恐数据全局知识图谱构建及系统实现的方法,包括:
[0006]利用基于反恐数据库中的数据源,基于预设实体词抽取所述数据源,得到与所述实体词相关的三元组;
[0007]利用所述三元组融合所述反恐数据库与自定义数据库建立全局数据库,利用所述全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;
[0008]将所述资源描述框架三元组嵌入语义空间,并基于所述语义空间建立训练集,利用所述训练集对深度学习网络进行训练,得到多任务联合学习模型;所述多任务联合学习模型用于识别资源描述框架三元组;
[0009]将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入所述全局知识图谱中。
[0010]进一步的,所述数据源包括:
[0011]结构化数据、半结构化数据和非结构化数据。
[0012]进一步的,所述基于预设实体词抽取所述数据源,包括:
[0013]对于结构化数据,采用D2R方法从所述结构化数据抽取知识或使用图映射的方法从链接数据抽取知识;
[0014]对于半结构化数据,则使用包装器从所述半结构化数据中抽取知识;
[0015]对于非结构化数据,则使用信息抽取的方法从自由文本中抽取知识。
[0016]进一步的,基于所述全局知识图谱提取资源描述框架三元组,包括:
[0017]计算全局数据库中的实体字符串的汉明距离;
[0018]根据所述汉明距离相似度,筛选出所述反恐数据库与自定义数据库匹配的实体对,并构建实体间的等价映射;
[0019]根据筛选出的实体对,基于反恐全局数据库进行广度优先搜索,获得与筛选出的实体对相关的实体;
[0020]依据获得的实体,提取资源描述框架三元组。
[0021]进一步的,所述将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,包括:
[0022]将映射至词向量空间的资源描述框架三元组输入至多任务联合学习模型,将嵌入到词向量矩阵空间中的知识重新映射到文字表示的资源描述框架三元组,从而得到新的资源描述框架三元组。
[0023]进一步的,新的资源描述框架三元组包括多个,得到新的资源描述框架三元组之后,还包括:
[0024]将新生成的资源描述框架三元组进行整理合并。
[0025]进一步的,还包括:
[0026]对反恐全局数据库中的字符串规范化处理。
[0027]本申请实施例提供一种反恐数据全局知识图谱构建及系统实现的装置,包括:
[0028]抽取模块,用于利用基于反恐数据库中的数据源,基于预设实体词抽取所述数据源,得到与所述实体词相关的三元组;
[0029]建立模块,利用所述三元组融合所述反恐数据库与自定义数据库建立全局数据库,利用所述全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;
[0030]训练模块,用于将所述资源描述框架三元组嵌入语义空间,并基于所述语义空间建立训练集,利用所述训练集对深度学习网络进行训练,得到多任务联合学习模型;所述多任务联合学习模型用于识别资源描述框架三元组;
[0031]补全模块,用于将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入所述全局知识图谱中。
[0032]本专利技术采用以上技术方案,能够达到的有益效果包括:
[0033]本专利技术提供一种反恐数据全局知识图谱构建及系统实现的方法,本申请将马里兰全球反恐数据库与自定义数据库进行融合优化,得到全局数据库,基于全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;将资源描述框架三元组
嵌入语义空间,通过语义空间对深度学习网络进行训练,得到多任务联合学习模型;将待识别词向量空间输入多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入全局知识图谱中。本专利技术利用了全局知识图谱,使得在训练、测试和查询中的知识库规模大幅缩小,精准度大幅提高,还自动挖掘反恐数据全局知识图谱中的隐藏知识,填补了基于知识图谱的反恐数据全局知识图谱补全方法的空白,同时,反恐数据分析系统的实现可以最大限度、最快速的从海量零散的数据中挖掘有价值的信息,利用事物的相关关系,快速判断、分析恐怖情况,极大的满足了当前的应用需求。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本专利技术反恐数据全局知识图谱构建及系统实现的方法的步骤示意图;
[0036]图2为本专利技术反恐数据全局知识图谱构建及系统实现的装置的结构示意图。
具体实施方式
[0037]为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种反恐数据全局知识图谱构建及系统实现的方法,其特征在于,包括:利用基于反恐数据库中的数据源,基于预设实体词抽取所述数据源,得到与所述实体词相关的三元组;利用所述三元组融合所述反恐数据库与自定义数据库建立全局数据库,利用所述全局数据库得到全局知识图谱,并基于所述全局知识图谱提取资源描述框架三元组;将所述资源描述框架三元组嵌入语义空间,并基于所述语义空间建立训练集,利用所述训练集对深度学习网络进行训练,得到多任务联合学习模型;所述多任务联合学习模型用于识别资源描述框架三元组;将待识别词向量空间输入所述多任务联合学习模型,得到新的资源描述框架三元组,将新的资源描述框架三元组补入所述全局知识图谱中。2.根据权利要求1所述的方法,其特征在于,所述数据源包括:结构化数据、半结构化数据和非结构化数据。3.根据权利要求2所述的方法,其特征在于,所述基于预设实体词抽取所述数据源,包括:对于结构化数据,采用D2R方法从所述结构化数据抽取知识或使用图映射的方法从链接数据抽取知识;对于半结构化数据,则使用包装器从所述半结构化数据中抽取知识;对于非结构化数据,则使用信息抽取的方法从自由文本中抽取知识。4.根据权利要求1所述的方法,其特征在于,基于所述全局知识图谱提取资源描述框架三元组,包括:计算全局数据库中的实体字符串的汉明距离;根据所述汉明距离相似度,筛选出所述反恐数据库与自定义数据库匹配的实体对,并构建实体间的等价映射;根据筛选出的实体对,基于反恐全局数据库进行广度优先搜索,获得与...

【专利技术属性】
技术研发人员:杜波俞昭君袁琛
申请(专利权)人:中国人民武装警察部队工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1