一种地震事件实体链接方法技术

技术编号:26763923 阅读:29 留言:0更新日期:2020-12-18 23:31
一种地震事件实体链接方法,包括:实时爬取地震局地震目录数据,将获取的地震数据以事件实体的形式存入实体库;提取地震新闻,抽取地震新闻中地震基本信息,并按照其在地震新闻中出现的顺序排列成地震信息数组;对地震信息数组先基于震源深度信息进行信息分组,并对各分组信息基于预设的地震新闻报道的顺序结构和地震信息逻辑判别方法将地震基本信息数组分成若干地震信息数组;基于实体库内注册的地震信息和地震识别方法对地震信息数组进行地震识别,并将识别出的地震与该地震新闻进行链接。本发明专利技术披露了如何提取地震新闻中的地震基本信息,并根据提取的地震基本信息进行地震识别,完成与实体库内对应的地震事件实体进行链接的方法。

【技术实现步骤摘要】
一种地震事件实体链接方法
本专利技术涉及实体链接领域,具体涉及一种基于中国地震局地震目录对新闻进行地震事件实体链接的方法。
技术介绍
实体链接在自然语言处理领域也被称为命名实体链接,是从文本中识别某些字符串,并映射到知识库中。一般的步骤分为两步:第一步是识别出文本中的实体,即实体识别。第二步是判断实体是属于知识库中哪一个实体,并将其进行链接,即实体消歧。现有的地震识别技术主要应用在地震预测、地质、能源、石油勘探等领域,通过输入对应的地震参数、物探参数,对现实生活中出现的地震进行识别。在事件信息提取领域,提取的颗粒度主要体现在地震发生这一层次,即只识别该新闻是一篇地震新闻,而不识别新闻所报道的地震具体是哪一个。在实体链接领域,主要链接的对象是人物、机构、地点等常见类型,当前在地震新闻这一领域还没有公开的实体链接方法。
技术实现思路
本专利技术所要解决的问题是实现将地震局的地震数据以地震事件这一实体类型存入实体库,并能够准确完成对地震新闻的实体链接,为后续实现地震知识图谱打下基础。本专利技术披露了一种新的实体类型本文档来自技高网...

【技术保护点】
1.一种地震事件实体链接方法,其特征在于,包括:/n实时爬取地震局地震目录数据,将获取的地震数据以事件实体的形式存入实体库;/n提取地震新闻,抽取地震新闻中地震基本信息,并按照其在地震新闻中出现的顺序排列成地震信息数组;/n对地震信息数组先基于震源深度信息进行信息分组,并对各分组信息基于预设的地震新闻报道的顺序结构和地震信息逻辑判别方法将地震基本信息数组分成若干地震信息数组;/n基于实体库内注册的地震信息和地震识别方法对地震信息数组进行地震识别,并将识别出的地震与该地震新闻进行链接。/n

【技术特征摘要】
20200812 CN 20201080825941.一种地震事件实体链接方法,其特征在于,包括:
实时爬取地震局地震目录数据,将获取的地震数据以事件实体的形式存入实体库;
提取地震新闻,抽取地震新闻中地震基本信息,并按照其在地震新闻中出现的顺序排列成地震信息数组;
对地震信息数组先基于震源深度信息进行信息分组,并对各分组信息基于预设的地震新闻报道的顺序结构和地震信息逻辑判别方法将地震基本信息数组分成若干地震信息数组;
基于实体库内注册的地震信息和地震识别方法对地震信息数组进行地震识别,并将识别出的地震与该地震新闻进行链接。


2.根据权利要求1所述的地震事件实体链接方法,其特征在于,
对地震目录中的发震地点通过地点实体库实体识别功能进行归一化处理,根据地点实体库实体识别模块,将地震局地震目录上的发震地点归一化处理为省市县三级格式;
将经过发震地点归一化处理后的中地震局地震数据存入实体库的方法包括:将地震局的每一条地震信息作为一条实体记录,其包含发震时刻、发震地点、震级、震源深度、经纬度五个实体属性,其实体类型为地震事件,并为其分配一条实体id作为唯一标识。


3.根据权利要求1所述的地震事件实体链接方法,其特征在于,对地震新闻进行地震基本信息提取,地震基本信息包括五类地震基本信息:发震时刻、发震地点、震级、震源深度、经纬度;对所述五类地震基本信息按照在文中的出现顺序放入到一个数组中。


4.根据权利要求3所述的地震事件实体链接方法,其特征在于,使用正则表达式提取出的地震基本信息放入分词词典中,再使用jieba模块加载分词词典,然后使用jieba模块对新闻进行分词,最后按照提取出的地震基本信息在文中的出现顺序,放入到一个数组中。

【专利技术属性】
技术研发人员:郭彦男刘方然徐常亮贺大为
申请(专利权)人:新华智云科技有限公司新华通讯社新媒体中心
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1