多源社交媒体自然灾害知识图谱实时构建方法及装置制造方法及图纸

技术编号:38814156 阅读:19 留言:0更新日期:2023-09-15 19:53
本发明专利技术提供一种多源社交媒体自然灾害知识图谱实时构建方法及装置,包括:获取多源社交媒体自然灾害本体;基于定时技术实时爬取多源社交媒体中的灾害数据,并进行数据清洗和预处理;利用序列标注模型识别灾害数据中的实体,根据灾害属性特点采用规则化方法提取用户发表的灾害信息;采用TF

【技术实现步骤摘要】
多源社交媒体自然灾害知识图谱实时构建方法及装置


[0001]本专利技术涉及自然灾害
,尤其涉及一种多源社交媒体自然灾害知识图谱实时构建方法及装置。

技术介绍

[0003]当今社会互联网高速发展,在社交媒体中具有海量的自然灾害相关数据,在灾害发生时,社交网络中灾害相关数据也会实时在网络中出现,但这些数据是非结构化的、海量的、复杂的且存在大量的垃圾数据,从而导致相关工作人员无法有效的获取到社交媒体中自然灾害相关的有效数据。
[0004]知识图谱是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成,其可以帮助相关用户可视化的查看各事件相关实体的属性和关联关系。
[0005]现有技术中提出了一种自然灾害应急知识图谱构建方法,围绕自然灾害事件、灾害应急任务、灾害数据、模型方法4个要素构建模式层,通过本体建模形成知识图谱的概念框架;自底向上构建数据层,通过数据获取、知识抽取、融合、存储建立实体间关联关系。该方法能够对自然灾害事件、灾害应急任务、灾害数据、模型方法4要素的概念层次关系及要素属性、要素间语义关联关系进行形式化表达,实现从多源数据到互联知识的转化。但其仅针对自然灾害维度的进行灾害知识图谱本体的构建,其数据来源主要来自灾害官方的结构化数据,实时性不高,且没有结合多源社交媒体中灾害相关的舆情。
[0006]现有技术中还提出了一种自然灾害舆情分析方法和装置,创建爬虫实时收集自然灾害相关的社交消息数据;对收集到的数据进行社交媒体消息的属性信息与自然灾害描述信息的抽取,基于抽取结果得到各社交消息对应的自然灾害实体数据;设置自然灾害信息表和社交消息缓存表分别记录各自然灾害和各社交消息,根据自然灾害实体数据按照各自然灾害事件对社交消息进行聚类,以生成聚类结果,并基于聚类结果进行自然灾害舆情分析。其主要完成一种实时多源社交媒体灾害事件的检测,只将数据存储到数据库中,并没有将社会舆情和灾害数据关联到一起,即缺少结构化数据设计,对于灾害实体之间的潜在关系的挖掘、后续灾害深入分析等都有一定的局限性。

技术实现思路

[0007]鉴于此,本专利技术实施例提供了一种多源社交媒体自然灾害知识图谱实时构建方法和装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有自然灾害知识图谱构建方法中本体构建维度低、自然灾害数据来源单一且实时性低以及没有结合社交媒体灾害舆情的问题。
[0008]一方面,本专利技术提供一种多源社交媒体自然灾害知识图谱实时构建方法,其特征在于,所述方法包括以下步骤:
[0009]获取预设的多源社交媒体自然灾害本体,以构建知识图谱的模式层;所述多源社交媒体自然灾害本体包括基本属性、灾害属性、孕灾环境、承灾体、社会舆情和应急措施六
个本体模块;所述社会舆情从多源社交媒体的灾害数据中获取;
[0010]采用预设爬虫技术和定时技术实时爬取灾害官网和多源社交媒体中的灾害数据,并存储于数据库;采用预设方法从所述灾害数据中获取灾害事件,根据所述灾害事件从所述数据库的多源社交媒体的灾害数据中提取相关数据;将所述相关数据输入知识抽取模块,得到相应的实体、关系和属性,并与所述灾害官网中提取的灾害实体和属性进行知识融合,最终构建知识图谱的数据层;其中,在所述知识抽取模块中,对所述相关数据进行数据清洗和数据预处理;利用预设序列标注模型识别所述相关数据中的实体,所述实体包括时间实体、地点实体、人物实体和机构实体;根据所述灾害事件的灾害属性与所述相关数据的特点采用规则化方法提取用户发表的灾害信息;采用TF

IDF的方法提取灾害发生预设时间段内用户的热议词;采用余弦相似度对所述相关数据进行聚类,提取灾害发生预设时间段内的热议话题和灾害科普信息;
[0011]结合所述知识图谱的模式层和所述知识图谱的数据层,以得到多源社交媒体自然灾害知识图谱。
[0012]在本专利技术的一些实施例中,获取所述多源社交媒体自然灾害知识图谱之后,还包括:
[0013]将所述多源社交媒体自然灾害知识图谱存入Neo4j图数据库,以实现可视化与数据查询功能。
[0014]在本专利技术的一些实施例中,所述基本属性包括灾害事件的ID、时间、地点和名称;所述孕灾环境包括周边环境、灾害地形和气候环境;所述承灾体包括人类本身和社会财富;所述社会舆情包括用户的情绪、灾情概述、灾害感受、器物反应、热议事件和热议话题;所述应急措施包括灾前科普、灾中应急措施和灾后重建。
[0015]在本专利技术的一些实施例中,采用预设方法从所述灾害数据中获取灾害事件,还包括:
[0016]采用预设爬虫技术和定时技术实时爬取所述灾害官网得到结构化的灾害数据,爬取多源社交媒体得到半结构化和/或非结构化的灾害数据;
[0017]对所述半结构化和/或非结构化的灾害数据采用预设文本分类模型以及人工正则化规则过滤垃圾数据;
[0018]对所述结构化的灾害数据或过滤后的半结构化和/或非结构化的灾害数据进行聚类,以得到其中的灾害事件。
[0019]在本专利技术的一些实施例中,所述爬虫技术包括Scrapy技术和Selenium技术中的一种或多种组合;所述定时技术为Celery定时技术。
[0020]在本专利技术的一些实施例中,所述数据清洗包括过滤特殊符号、删除空文本帖子、填充缺失字段、分词和去除停用词。
[0021]在本专利技术的一些实施例中,所述数据预处理包括:
[0022]对所述相关数据的分词结果进行词性标注;
[0023]将所述相关数据输入预设嵌入模型,生成所述相关数据的向量表示。
[0024]在本专利技术的一些实施例中,将所述相关数据输入知识抽取模块,得到相应的实体、关系和属性,并与所述灾害官网中提取的灾害实体和属性进行知识融合,还包括:
[0025]将所述灾害官网中的灾害事件与知识抽取得到的灾害事件进行对齐;
[0026]将各灾害事件的地点实体进行对齐,所述地点实体包括相应灾害事件发生时所在的省份、市级、区级;
[0027]将各灾害事件的时间实体进行对齐,所述时间实体包括相应灾害事件发生时间的年、月、日;
[0028]对各灾害事件的社会舆情进行对齐。
[0029]另一方面,本专利技术提供一种多源社交媒体自然灾害知识图谱实时构建装置,其特征在于,所述装置包括:
[0030]本体构建模块,用于构建多源社交媒体自然灾害本体,形成知识图谱的模式层;
[0031]数据获取模块,包括实时多源社交媒体数据获取模块、数据清洗与预处理模块、面向多源社交媒体灾害数据知识抽取模块和多源社交媒体灾害实体对齐模块;所述实时多源社交媒体数据获取模块用于通过预设爬虫技术和定时技术实时爬取灾害官网和多源社交媒体中的灾害数据并存储;所述数据清洗与预处理模块用于对从多源社交媒体灾害数据中提取的相关数据进行数据清洗和预处理;所述面向多源社交媒体灾害数据知识抽取模块用于知识抽取所述相关数据,得到相应的实体、关系和属性;所述多源社交媒体灾害实体对齐模块用于将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源社交媒体自然灾害知识图谱实时构建方法,其特征在于,所述方法包括以下步骤:获取预设的多源社交媒体自然灾害本体,以构建知识图谱的模式层;所述多源社交媒体自然灾害本体包括基本属性、灾害属性、孕灾环境、承灾体、社会舆情和应急措施六个本体模块;所述社会舆情从多源社交媒体的灾害数据中实时获取;采用预设爬虫技术和定时技术实时爬取灾害官网和多源社交媒体中的灾害数据,并存储于数据库,所述多源社交媒体至少包括新浪新闻、新浪微博和百度贴吧;采用预设方法从所述灾害数据中获取灾害事件,根据所述灾害事件从所述数据库的多源社交媒体的灾害数据中提取相关数据;将所述相关数据输入知识抽取模块,得到相应的实体、关系和属性,并与所述灾害官网中提取的灾害实体和属性进行知识融合,最终构建知识图谱的数据层;其中,在所述知识抽取模块中,对所述相关数据进行数据清洗和数据预处理;利用预设序列标注模型识别所述相关数据中的实体,所述实体包括时间实体、地点实体、人物实体和机构实体;根据所述灾害事件的灾害属性与所述相关数据的特点采用规则化方法提取用户发表的灾害信息;采用TF

IDF的方法提取灾害发生预设时间段内用户的热议词;采用余弦相似度对所述相关数据进行聚类,提取灾害发生预设时间段内的热议话题和灾害科普信息;结合所述知识图谱的模式层和所述知识图谱的数据层,以得到多源社交媒体自然灾害知识图谱。2.根据权利要求1所述的多源社交媒体自然灾害知识图谱实时构建方法,其特征在于,在获取所述多源社交媒体自然灾害知识图谱之后,还包括:将所述多源社交媒体自然灾害知识图谱存入Neo4j图数据库,以实现可视化与数据查询功能。3.根据权利要求1所述的多源社交媒体自然灾害知识图谱实时构建方法,其特征在于,所述基本属性包括灾害事件的ID、时间、地点和名称;所述孕灾环境包括周边环境、灾害地形和气候环境;所述承灾体包括人类本身和社会财富;所述社会舆情包括用户的情绪、灾情概述、灾害感受、器物反应、热议事件和热议话题;所述应急措施包括灾前科普、灾中应急措施和灾后重建。4.根据权利要求1所述的多源社交媒体自然灾害知识图谱实时构建方法,其特征在于,采用预设方法从所述灾害数据中获取灾害事件,还包括:采用预设爬虫技术和定时技术实时爬取所述灾害官网得到结构化的灾害数据,爬取多源社交媒体得到半结构化和/或非结构化的灾害数据;对所述半结构化和/或非结构化的灾害数据采用预设文本分类模型以及人工正则化规则过滤垃圾数据;对所述结构化的灾害数据或过滤后的半结构化和/或非结构化的灾害数据...

【专利技术属性】
技术研发人员:邵蓥侠王海江
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1