一种基于要素信息抽取的气象灾害事件聚合方法技术

技术编号:32929318 阅读:14 留言:0更新日期:2022-04-07 12:20
本发明专利技术公开了一种基于要素信息抽取的气象灾害事件聚合方法。本发明专利技术通过分析气象灾害事件信息在自然语言与气象灾害事件信息系统中表达机制差异,归纳总结气象灾害信息的语言描述特点,构建面向中文文本的气象灾害信息表达体系,并制定具体的标注模式和规范,建立大规模的中文文本标注实验数据,以供机器学习进行灾害事件信息中相关信息的抽取;根据气象灾害信息来源发布特点,选取合适所需信息源进行数据采集,制定自动化采集方法,以获取气象灾害事件的文本数据;随后根据标注数据,结合机器学习算法与模型,对气象灾害事件信息中的时间信息、地名信息、事物信息、人物信息和事件信息进行抽取;以抽取的时间、地名、事物、人物和事件信息作为基础,根据构建的气象灾害特征词库以及抽取信息中的灾害时间范围、灾害地点、受灾详情以及事物关键词和灾情信息阈值等数据,结合事件聚合流程和判断逻辑,将同一气象灾害事件的信息进行聚合。灾害事件的信息进行聚合。灾害事件的信息进行聚合。

【技术实现步骤摘要】
一种基于要素信息抽取的气象灾害事件聚合方法


[0001]本专利技术涉及一种基于要素信息抽取的气象灾害事件聚合方法,属于气象灾害 监测


技术介绍

[0002]气象灾害是指大气对人类的生命财产和国民经济建设及国防建设等造成的 直接或间接的损害,主要包括台风、干旱、高温、山洪、雷暴、沙尘暴等。中 国是世界上自然灾害发生十分频繁、灾害种类甚多,造成损失十分严重的少数 国家之一。气象防灾减灾救灾是气象工作的重中之重,是国家防灾减灾救灾不 可替代的重要力量,是国家公共安全体系的重要组成部分。
[0003]实践表明,气象实况数据、预报数据和舆情监测数据存在显著的优势互补特 性。与其他气象数据相比,虽然网络气象舆情数据存在稀疏性、不确定性、模 糊性等缺点,但是具有不可替代的多元性、丰富性、动态性和关联性等特征。 气象防灾减灾相关舆情信息收集和分析是气象服务工作重要成分。
[0004]舆情信息聚合是将各种数据来源中分散的相关信息碎片,围绕某个主题将其 整合成完整的、有参考价值的信息。可以分别以时间、地点、人物、事物、事 件为线索,进行气象灾害舆情信息聚合。例如,将台风“山竹”(事件)按照时 间和地点顺序进行聚合,能够系统地整理该事件从预报开始,直至事件结束所 有的信息,帮助人们全面地了解台风的整个生命周期及其导致的灾情信息。在 专利技术中,重点对文本信息进行聚合,结合信息抽取过程中对于气象灾害事件信 息的抽取结果,针对我国不同区域、不同时期气象灾害发生的类型和特点,通 过事件聚合流程和判断逻辑,对气象灾害舆情事件进行聚合,从而可实现气象 灾害的整体分析,解决气象灾害监测的标准化、智能化问题。

技术实现思路

[0005]气象灾害的防灾减灾是国家公共安全体系的重要组成部分。气象舆情监测数 据存在稀疏性、不确定性、模糊性等缺点,针对我国不同区域、不同时期气象 灾害发生的类型和特点,利用信息聚合将其整合成完整的、有参考价值的信息 是本专利技术亟待解决的问题,本专利技术的目的在于提供一种基于要素信息抽取的气 象灾害事件聚合方法。
[0006]本专利技术解决其技术问题所采取的技术方案是:一种基于要素信息抽取的气象 灾害事件聚合方法,该方法包括以下步骤:
[0007]步骤1:通过分析气象灾害事件信息在自然语言与气象灾害事件信息系统中 表达机制差异,归纳总结气象灾害信息的语言描述特点,构建面向中文文本的 气象灾害信息表达体系,并制定具体的标注模式和规范,建立大规模的中文文 本标注实验数据,以供机器学习进行灾害事件信息中相关信息抽取的训练;
[0008]步骤2:参考气象灾害信息的发布特点,选取所需信息源进行访问,拟采用 基于链接结构评价的搜索策略和基于网页内容评价的搜索策略两种方式的气象 灾害事件信息资
源网页获取策略以获取灾害舆情信息的新闻文本数据;
[0009]步骤3:利用舆情信息中灾害事件标注语料完成训练的机器学习和深度学习 信息抽取模型,结合本专利技术构建的气象灾害事件的特征词汇库,进行舆情信息 中的数据抽取,包括时间、地名、人物、事物和气象灾害事件信息的抽取;
[0010]步骤4:将文本信息作为主要载体,以抽取的时间、地名、事物、人物和事 件信息作为基础,根据构建的气象灾害特征词库以及抽取信息中的灾害时间范 围、灾害地点、受灾详情以及事物关键词和灾情信息阈值等数据,结合事件聚 合流程和判断逻辑,将同一气象灾害事件的信息进行聚合,得到同一事件聚合 结果。
[0011]进一步地,本专利技术步骤1中所述构建面向中文文本的气象灾害信息表达体系 和标注规范,将从气象灾害信息词汇、句法和语义结构三个层次进行体系构建, 并制定基于XML schema的气象灾害事件信息标注操作规范。
[0012]进一步地,本专利技术步骤1中所述建立大规模的中文文本标注实验数据,将以 中科院计算所研发的ICTCLAS为自然语言处理平台,GATE(GeneralArchitecture for Text Engineering)为标注平台,进行大规模数据标注,以 用于机器学习训练。
[0013]进一步地,本专利技术步骤2中所述采用基于链接结构评价的搜索策略和基于网 页内容评价的搜索策略两种方式,首先利用基于链接结构评价的搜索策略扩大 搜索宽度,然后通过对网页内容与检索模板中的内容进行相似度计算,最终根 据计算结果确定是否保留该网页。
[0014]进一步地,本专利技术步骤3中所述利用机器学习模型对灾害信息中的时间信息 进行抽取,主要利用条件随机场(Conditional Random Fields,CRF)模型进行 实现。
[0015]进一步地,本专利技术利用CRF对灾害信息中时间信息进行抽取,实现步骤如 下:1)解析标注语料格式,获取时间短语起始位置,将其转化为条件随机场模 型训练所需要的格式,即BIES序列标注。2)经过上述步骤得到CRF训练所需 样本格式,设计特征模板,使用CRF++工具训练,生成CRF模型。3)将所得 模型集成到Java项目中,通过自定义的规则得到完整的时间信息。从识别的BIES 序列标注结果中提取出识别的时间信息。
[0016]进一步地,本专利技术步骤3中所述利用机器学习模型对灾害信息中的事件信息 进行抽取,根据事件语句描述特点将事件信息抽取分为三个层次:信息描述较 为丰富的句子、事件信息描述较为稀疏的句子和对于事件信息描述较为稀疏的 段落。
[0017]进一步地,本专利技术机器学习模型在事件信息抽取选择文本范围时,对于信息 描述较为丰富的句子,以句子为单位的事件类型判断;对于事件信息描述较为 稀疏的句子,则将文本单位扩展至段落范围;对于事件信息描述较为稀疏的段 落,则将文本单位扩展至篇章范围。
[0018]进一步地,本专利技术步骤4中所述的对气象灾害舆情信息进行聚合,针对已有 的事件,需要不断更新相关舆情新闻入库直至事件结束;针对数据库中没有的 事件,则需要根据事件聚合的方法逻辑进行处理,从互联网数据中及时发现新 的灾害事件。
[0019]进一步地,本专利技术事件聚合过程中需要判断的内容包括灾害时间范围、灾害 地点、受灾详情、事物关键词和灾情信息阈值等数据,结合聚合流程进行综合 判断,根据判断结果进行事件聚合。
[0020]本专利技术是通过分析气象灾害事件信息在自然语言与气象灾害事件信息系统 中表
达机制差异,归纳总结气象灾害信息的语言描述特点,构建面向中文文本 的气象灾害信息表达体系,并制定具体的标注模式和规范,建立大规模的中文 文本标注实验数据,以供机器学习进行灾害事件信息中相关信息的抽取。参考 气象灾害信息的发布特点,选取所需主题的网页进行访问,拟采用基于链接结 构评价的搜索策略和基于网页内容评价的搜索策略两种方式的气象灾害事件信 息资源网页获取策略以获取灾害舆情信息的新闻文本数据。利用舆情信息中灾 害事件标注语料完成训练的机器学习和深度学习信息抽取模型,结合本专利技术构 建的气象灾害事件的特征词汇库,进行舆情信息中的数据抽取,包括时间、地 名、人物、事物和气象灾害事件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于要素信息抽取的气象灾害事件聚合方法,其特征在于,所述方法包括以下步骤:步骤1:通过分析气象灾害事件信息在自然语言与气象灾害事件信息系统中表达机制差异,归纳总结气象灾害信息的语言描述特点,构建面向中文文本的气象灾害信息表达体系,并制定具体的标注模式和规范,建立大规模的中文文本标注实验数据,以供机器学习进行灾害事件信息中相关信息抽取的训练;步骤2:参考气象灾害信息的发布特点,选取所需信息源进行访问,拟采用基于链接结构评价的搜索策略和基于网页内容评价的搜索策略两种方式的气象灾害事件信息资源网页获取策略以获取灾害舆情信息的新闻文本数据;步骤3:利用舆情信息中灾害事件标注语料完成训练的机器学习和深度学习信息抽取模型,结合构建的气象灾害事件的特征词汇库,进行舆情信息中的数据抽取,包括时间、地名、人物、事物和气象灾害事件信息的抽取;步骤4:将文本信息作为主要载体,以抽取的时间、地名、事物、人物和事件信息作为基础,根据构建的气象灾害特征词库以及抽取信息中的灾害时间范围、灾害地点、受灾详情以及事物关键词和灾情信息阈值等数据,结合事件聚合流程和判断逻辑,将同一气象灾害事件的信息进行聚合,得到同一事件聚合结果。2.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法,其特征在于,步骤1中所述构建面向中文文本的气象灾害信息表达体系和标注规范,将从气象灾害信息词汇、句法和语义结构三个层次进行体系构建,并制定基于XML schema的气象灾害事件信息标注操作规范。3.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法,其特征在于,步骤1中所述建立大规模的中文文本标注实验数据,将以GATE(General Architecture for Text Engineering)为标注平台,进行大规模数据标注,以用于机器学习训练。4.根据权利要求1所述的一种基于要素信息抽取的气象灾害事件聚合方法,其特征在于,步骤2中所述采用基于链接结构评价的搜索策略和基于网页内容评价的搜索策略两种方式,首先利用基于链接结构评价的搜索策略扩大搜索宽度,然后通过对网页内容与检索模板中的内容进行相似度计算,最终根...

【专利技术属性】
技术研发人员:赵文强王铁张雪英王益鹏曹忠群
申请(专利权)人:南京大峡谷信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1