当前位置: 首页 > 专利查询>田煜专利>正文

一种面向应急物资管理的知识图谱技术的构建方法技术

技术编号:32975823 阅读:13 留言:0更新日期:2022-04-09 11:52
本发明专利技术公开了一种面向应急物资管理的知识图谱技术的构建方法,包括下列构建方法步骤:S1对原始数据集进行获取;S2对实体属性进行抽取;S3实现融合BERT的基于序列标注和依存句法分析的三元组抽取模型(B

【技术实现步骤摘要】
一种面向应急物资管理的知识图谱技术的构建方法


[0001]本专利技术涉及应急物资管理
,具体为一种面向应急物资管理的知识图谱技术的构建方法。

技术介绍

[0002]应急物资是指为应对严重自然灾害、事故灾难、公共卫生事件和社会安全事件等突发公共事件应急全过程中所必需的物资保障。建设应急物资以及应急资源管理平台,提升应急管理信息化水平,能够有效提高应对处置重大突发事件的能力,在保障人民群众生命财产安全、有力有序有效开展应急工作等方面能够发挥重要作用,对于推进国家应急管理体系和能力现代化具有重要意义。
[0003]传统的应急物资供给逻辑已显现出不适,为了更好地满足应急管理需要并支持现代化的实现,供给逻辑需要有所创新优化。因此需要研究一种面向应急物资管理的知识图谱技术的构建方法来解决上述问题。

技术实现思路

[0004]本专利技术的目的在于提供一种面向应急物资管理的知识图谱技术的构建方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种面向应急物资管理的知识图谱技术的构建方法,包括下列构建方法步骤:S1对原始数据集进行获取,已完成多源数据集的整合,使用爬虫工具对来源包括百度百科、MSDS数据库、应急管理局官方网站、各省市公开应急预案、突发事件案例等非结构化数据以及半结构化数据进行收集;S2对实体属性进行抽取,在应急领域的危险化学品分类中,对危险化学品的属性从百度百科中使用scrapy框架提取并构成三元组自动存入mongodb数据库;S3实现融合BERT的基于序列标注和依存句法分析的三元组抽取模型(B

STDP);S4构建知识图谱,将以上准备好的三元组数据用Cypher进行操作存入Neo4j数据库,并对不同类型的数据进行标注区分,整体数据排布以事件为中心进行扩散;S5完成应急物资管理知识搜索系统的环境搭建、需求分析、整体架构设计、前端设计与开发。
[0006]优选的,所述在步骤S3中,首先从MSDS库中把每一种危化品处置当中用到的应急物资抽取出来,应急物资类目采用应急物资分类编码标准中的数据,MSDS库本身是结构化的数据,结构化处理应急措施中具体使用的以自然语言形式存在的处置物资,然后根据非结构化数据的特点和BERT模型的优势,实现B

STDP模型,将非结构化文档中的三元组提取出来,以RDF数据格式进行存储。
[0007]优选的,所述在步骤S1中,采用非结构化数据来获取数据的来源,非结构化数据是没有预定义的、不完整或不规则的数据模型,在应急领域,应急物资的完整数据、包含应急物资的突发事件描述、历史应急事件的概况等信息,均由非结构化数据组成。
[0008]优选的,所述在步骤S2中,实体关系抽取模型主要由四个部分组成:数据获取、数
据预处理、序列标注、实体关系联合抽取。
[0009]优选的,所述数据获取中含应急物资清单、突发事件事故调查报告、突发事件专项预案,采用基于Python的Scrapy框架实现网络爬虫爬取直接保存至Neo4j数据库,同时存入mongodb作为备份,数据预处理中爬取的数据文件中包含加密的pdf文件,将pdf转化为图片,再利用百度OCR技术将pdf文件内的数据识别出来,对爬取的数据进行过滤操作,以句子为单位进行人工标注操作,实体关系联合抽取中通过联合建模实体、关系之间的内在联系,缓解误差累积,为推荐系统、多轮自动问答系统、复杂信息检索等下游子任务提供有力的支持。
[0010]优选的,所述在步骤S4中,采用图数据库进行查询、删除、增加、更新等一系列操作,Neo4j数据库属于图数据库的一种,Neo4j作为图数据库的主要代表,其运行方式有两种:服务的方式,对外提供REST接口;嵌入式模式,数据以文件的形式存放在本地,可以直接对本地文件进行操作。
[0011]优选的,所述在步骤S4中,Cypher是一个描述性的图形查询语言,即Neo4j的查询语言,Cypher查询语句与结构化数据库中SQL查询语句作用类似,通过模式匹配来匹配图数据库中的节点和关系,也可以创建、更新和删除节点、关系和属性,一个完整的Cypher查询语句可以对图数据库中数据进行操作,通常包括MATCH关键字、WHERE关键字和RETURN关键字,Cypher的关键字可分为三类:读关键字、写关键字、通用关键字。
[0012]优选的,所述在步骤S5中,根据应急资源调度系统的需求,构建相关的知识图谱后,将多维的网络空间资源及其关联关系融合到系统中,利用搜索系统提供交互,在构建好的知识图谱中,每对实体间存在大量关系路径的信息,且每个实体都有对应的实体描述信息。
[0013]与现有技术相比,本专利技术的有益效果是:
[0014](1)本专利技术在应急物资高效储存的基础上,考虑不同场景的需求,利用知识图谱构建技术对突发事件发生的情景下完善对应急物资的管理,为应急资源优化分类方法及元数据规范研究、突发事件及应急资源关联匹配技术、研究应急资源动态管理数据库构建提供了理论支撑,为应急事件查询应急资源与调度分配物资提升效率,同时对应急资源调度等工作有着重要的作用,具备实用价值,在其他知识图谱分类也将有较好的可复用性,具备最小时延化和最大效用化的优点;
[0015](2)本专利技术实现一种融合BERT的基于序列标注和依存句法分析的三元组抽取模型,摒弃复杂冗余的算法模型,只考虑适用于含有大量非结构化数据的应急领域的数据,此模型在特定灾害情况下的应急物资调度与管理场景下,具有较高的社会价值和商业价值,在应急领域的工业级的任务中取得良好的效果。
附图说明
[0016]图1为本专利技术的构件方法步骤流程框图;
[0017]图2为本专利技术的知识图谱构建过程结构框图;
[0018]图3为本专利技术的危化品领域信息架构框图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0020]请参阅图1

3,本专利技术提供的一种实施例:一种面向应急物资管理的知识图谱技术的构建方法,包括下列构建方法步骤:S1对原始数据集进行获取,已完成多源数据集的整合,使用爬虫工具对来源包括百度百科、MSDS数据库、应急管理局官方网站、各省市公开应急预案、突发事件案例等非结构化数据以及半结构化数据进行收集;S2对实体属性进行抽取,在应急领域的危险化学品分类中,对危险化学品的属性从百度百科中使用scrapy框架提取并构成三元组自动存入mongodb数据库;S3实现融合BERT的基于序列标注和依存句法分析的三元组抽取模型(B

STDP);S4构建知识图谱,将以上准备好的三元组数据用Cypher进行操作存入Neo4j数据库,并对不同类型的数据进行标注区分,整体数据排布以事件为中心进行扩散;S5完成应急物资管理知识搜索系统的环境搭建、需求分析、整体架构设计、前端设计与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向应急物资管理的知识图谱技术的构建方法,其特征在于,包括下列构建方法步骤:S1对原始数据集进行获取,已完成多源数据集的整合,使用爬虫工具对来源包括百度百科、MSDS数据库、应急管理局官方网站、各省市公开应急预案、突发事件案例等非结构化数据以及半结构化数据进行收集;S2对实体属性进行抽取,在应急领域的危险化学品分类中,对危险化学品的属性从百度百科中使用scrapy框架提取并构成三元组自动存入mongodb数据库;S3实现融合BERT的基于序列标注和依存句法分析的三元组抽取模型(B

STDP);S4构建知识图谱,将以上准备好的三元组数据用Cypher进行操作存入Neo4j数据库,并对不同类型的数据进行标注区分,整体数据排布以事件为中心进行扩散;S5完成应急物资管理知识搜索系统的环境搭建、需求分析、整体架构设计、前端设计与开发。2.根据权利要求1所述的一种面向应急物资管理的知识图谱技术的构建方法,其特征在于:所述在步骤S3中,首先从MSDS库中把每一种危化品处置当中用到的应急物资抽取出来,应急物资类目采用应急物资分类编码标准中的数据,MSDS库本身是结构化的数据,结构化处理应急措施中具体使用的以自然语言形式存在的处置物资,然后根据非结构化数据的特点和BERT模型的优势,实现B

STDP模型,将非结构化文档中的三元组提取出来,以RDF数据格式进行存储。3.根据权利要求1所述的一种面向应急物资管理的知识图谱技术的构建方法,其特征在于:所述在步骤S1中,采用非结构化数据来获取数据的来源,非结构化数据是没有预定义的、不完整或不规则的数据模型,在应急领域,应急物资的完整数据、包含应急物资的突发事件描述、历史应急事件的概况等信息,均由非结构化数据组成。4.根据权利要求1所述的一种面向应急物资管理的知识图谱技术的构建方法,其特征在于:所述在步骤S2中,实体关系抽取模型主要由四个部分组成:数据获取、数据预处理、序列标注、实体关系联合抽取。5.根据权利要求4所述...

【专利技术属性】
技术研发人员:田煜
申请(专利权)人:田煜
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1