【技术实现步骤摘要】
一种基于知识图谱的气象应急预警知识库构建方法
[0001]本专利技术涉及知识图谱与自然语言处理领域,尤其涉及一种基于知识图谱的气象知识库构建方法。
技术介绍
[0002]社会发展与经济建设越来越离不开气象事业。全球气候变化使气象灾害频现,给国家经济建设和民众生活造成的影响越来越大,损失也越来越严重。为了强化全社会面对气象灾害防灾减灾意识,提高防灾减灾能力,真正实现气象科普社会效应,使气象服务为社会和经济建设提供有力支持,需要引入前沿技术,解决气象灾害预警和防治过程中遇到的诸多挑战。
[0003]自然语言处理是一门把语言学、计算机科学、数学等相关领域融为一体的交叉学科,自然语言处理技术逐渐渗透到各行各业用于文本数据挖掘和信息存储。从命名实体识别的角度来看,在满足将对非结构化文本分析和理解的同时,需要保证数据的可扩展性。从关系抽取的角度来看,在满足对实体抽取后实体之间的关系链接是对数据处理与关联的延伸。命名实体识别与关系抽取技术已经广泛应用于文本数据挖掘和存储,可以实现高效准确的信息筛选。
[0004]知识图谱是一种以结构化形式表示事物以及事物之间的关系的语义网,能有效利用大量的结构化、半结构化和非结构化数据。知识图谱的构建包括知识抽取、知识融合与知识表示等。知识图谱可分为通用知识图谱和领域知识图谱。通用知识图谱主要应用于搜索引擎和链接站点等技术;领域知识图谱主要应用于特定的领域,专业化程度更高,已在医疗、金融、电商等领域有着广泛应用。
[0005]目前的气象应急预警工作中的分析和决策严重依赖人工 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱的气象知识库构建方法,其特征在于,包括以下步骤:步骤1.将气象应急预警数据进行机器读取和内容转码;步骤2.针对步骤1所输出的数据进行特征工程,删除赘余成分并提取目标内容;步骤3.针对步骤2所输出的数据进行内容筛选和层级构建,形成大类、子类、判断标准和防御指南,将大类和子类写入数据集中进行保存;步骤4.针对步骤3所形成的判断标准和防御指南进行命名实体识别以及实体关系抽取,得到知识融合后的实体
‑
关系
‑
实体的三元组;步骤5.将步骤3中形成的大类、子类中的实体节点和步骤4中的三元组进行知识表示,编写工具类实现自动建立和维护知识图谱,实现知识库的构建。2.根据权利要求1所述的一种基于知识图谱的气象知识库构建方法,其特征在于:步骤2中所述特征工程引用python
‑
docx包读取文档,使用re库实现对文档的正则表达式操作,批量地删除文档中默认不显示的占位符、换行符以及构建图谱不需要的图片和标点符号,从而实现对目标内容的提取。3.根据权利要求1所述的一种基于知识图谱的气象知识库构建方法,其特征在于,步骤4中所述命名实体识别的具体步骤包括:步骤4.1将所述判断标准和防御指南中的单词序列通过Word2Vec方法转化为词向量V
word
=(v1,v2,v3,...,v
n
),其中n为向量维度;步骤4.2使用双向长短记忆网络对词向量V
word
进行编码;步骤4.3使用条件随机场对编码后的词向量V
word
解码并输出每个单词的序列标签;步骤4.4使用维特比算法对步骤4.3所输出序列标签的概率进行归一化处理,从而完成命名实体识别。4.根据权利要求3所述的一种基于知识图谱的气象知识库构建方法,其特征在于,步骤4中所述实体关系抽取的具体步骤包括:步骤4.5将所述判断标准和防御指南的单词序列中的单词相对于主语实体的位置序列定义为第一序列其中,s1和s2分别为主语实体的开始位置和结束位置,表示第i个单词与主语实体的相对位置;步骤4.6将所述判断标准和防御指南的单词序列中的单词相对于宾语实体的位置序列定义为第二序列第二序列为依次排布的绝对序列;步骤4.7将所述第一序列转换为第一位置向量,将第二序列转换为第二位...
【专利技术属性】
技术研发人员:余正,许小龙,康志明,孙文正,江结林,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。