一种地震事件实体链接方法技术

技术编号:26763923 阅读:17 留言:0更新日期:2020-12-18 23:31
一种地震事件实体链接方法,包括:实时爬取地震局地震目录数据,将获取的地震数据以事件实体的形式存入实体库;提取地震新闻,抽取地震新闻中地震基本信息,并按照其在地震新闻中出现的顺序排列成地震信息数组;对地震信息数组先基于震源深度信息进行信息分组,并对各分组信息基于预设的地震新闻报道的顺序结构和地震信息逻辑判别方法将地震基本信息数组分成若干地震信息数组;基于实体库内注册的地震信息和地震识别方法对地震信息数组进行地震识别,并将识别出的地震与该地震新闻进行链接。本发明专利技术披露了如何提取地震新闻中的地震基本信息,并根据提取的地震基本信息进行地震识别,完成与实体库内对应的地震事件实体进行链接的方法。

【技术实现步骤摘要】
一种地震事件实体链接方法
本专利技术涉及实体链接领域,具体涉及一种基于中国地震局地震目录对新闻进行地震事件实体链接的方法。
技术介绍
实体链接在自然语言处理领域也被称为命名实体链接,是从文本中识别某些字符串,并映射到知识库中。一般的步骤分为两步:第一步是识别出文本中的实体,即实体识别。第二步是判断实体是属于知识库中哪一个实体,并将其进行链接,即实体消歧。现有的地震识别技术主要应用在地震预测、地质、能源、石油勘探等领域,通过输入对应的地震参数、物探参数,对现实生活中出现的地震进行识别。在事件信息提取领域,提取的颗粒度主要体现在地震发生这一层次,即只识别该新闻是一篇地震新闻,而不识别新闻所报道的地震具体是哪一个。在实体链接领域,主要链接的对象是人物、机构、地点等常见类型,当前在地震新闻这一领域还没有公开的实体链接方法。
技术实现思路
本专利技术所要解决的问题是实现将地震局的地震数据以地震事件这一实体类型存入实体库,并能够准确完成对地震新闻的实体链接,为后续实现地震知识图谱打下基础。本专利技术披露了一种新的实体类型-地震事件实体类型,将地震局地震数据以地震事件实体类型存入实体库的方法。本专利技术披露了如何提取地震新闻中的地震基本信息,并根据提取的地震基本信息进行地震识别,完成与实体库内对应的地震事件实体进行链接的方法步骤。为了解决上述技术问题,本专利技术通过下述技术方案得以解决:一种地震事件实体链接方法,包括:实时爬取地震局地震目录数据,将获取的地震数据以事件实体的形式存入实体库;提取地震新闻,抽取地震新闻中地震基本信息,并按照其在地震新闻中出现的顺序排列成地震信息数组;对地震信息数组先基于震源深度信息进行信息分组,并对各分组信息基于预设的地震新闻报道的顺序结构和地震信息逻辑判别方法将地震基本信息数组分成若干地震信息数组;基于实体库内注册的地震信息和地震识别方法对地震信息数组进行地震识别,并将识别出的地震与该地震新闻进行链接。可选的,对地震目录中的发震地点通过地点实体库实体识别功能进行归一化处理,根据地点实体库实体识别模块,将地震局地震目录上的发震地点归一化处理为省市县三级格式;将经过发震地点归一化处理后的中地震局地震数据存入实体库的方法包括:将地震局的每一条地震信息作为一条实体记录,其包含发震时刻、发震地点、震级、震源深度、经纬度五个实体属性,其实体类型为地震事件,并为其分配一条实体id作为唯一标识。可选的,对地震新闻进行地震基本信息提取,地震基本信息包括五类地震基本信息:发震时刻、发震地点、震级、震源深度、经纬度;对所述五类地震基本信息按照在文中的出现顺序放入到一个数组中可选的,使用正则表达式提取出的地震基本信息放入分词词典中,再使用jieba模块加载分词词典,然后使用jieba模块对新闻进行分词,最后按照提取出的地震基本信息在文中的出现顺序,放入到一个数组中。可选的,完成地震信息数组的提取后,判断地震信息数组中的每一组数组是否包含震源深度信息,若是,则以震源深度信息为分组节点,对地震信息数组进行分组;若否,则将地震信息数组整个分为一组。可选的,地震信息输出方法包括:若在地震新闻中抽取出震源深度信息,则预设的报道顺序是:发震时刻,发震地点,震级,震源深度;若新闻中没有抽取出震源深度信息,则预设的报道顺序是:发震时刻,发震地点,震级,空;对每一个地震信息分组按照所述两种预设的报道顺序的结构进行比对,如满足其中一种预设的报道顺序,则按照预设的结构输出地震信息数组,若均不满足这两类预设的报道顺序结构,则通过地震逻辑判别方法进行继续判断。可选的,地震逻辑判别方法包括:地震信息数组中的信息进行顺序颠倒,按照调整后的顺序分别取在分组中最先出现的发震时刻、发震地点、震级这三个信息,如果无相关信息,则该字段输出为空。最后将信息进行整合,输出结构为:发震时刻,发震地点,震级,震源深度,如果不包含相关信息,则输出为空。可选的,将经过分组后的地震信息数组先通过归一化处理将格式转化成跟实体库内地震事件实体的数据格式一致,再通过地震识别方法,按照发震时刻、发震地点、震级、震源深度的优先级比对实体库内存入的地震局地震数据,识别出地震信息数组对应的新闻所描述的地震,将所述新闻与实体库地震进行实体链接。可选的,实体名命名格式为”<发震时刻月.日>+<发震地点>+地震”。本专利技术的有益效果:1、本专利技术的实体链接技术应用于地震新闻文本。通过提取新闻中的地震基本信息,比对实体库中存入的地震事件实体信息,进行地震识别。区别于传统地震识别方法是根据其输入的地质参数、物探参数通过对应的地质模型进行地震识别方法。2、本专利技术基于中国地震局地震目录创建了地震事件实体,并以此为基础对地震新闻进行实体链接,为构造地震事件新闻脉络梳理、智能问答、信息提取以及地震新闻场景下的知识图谱构建建立基础。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是地震新闻识别与链接整体流程框图;图2是地震实体入库格式示意图;图3是地震基本信息数组提取方法示意图;图4是地震基本信息数组分组方法示意图;图5是地震识别方法框图。具体实施方式下面结合实施例对本专利技术做进一步的详细说明,以下实施例是对本专利技术的解释而本专利技术并不局限于以下实施例。一种地震事件实体链接方法,如图1,包括:S01:实时爬取地震局地震目录数据,并对地震目录中的发震地点通过地点实体库实体识别功能进行归一化处理,将获取的地震数据以事件实体的形式存入实体库;具体包括:发震地点归一化处理的方法包括根据地点实体库实体识别模块,将地震局地震目录上的发震地点归一化处理为省市县三级格式;将经过发震地点归一化处理后的中地震局地震数据存入实体库的方法包括:将中国地震局的每一条地震信息作为一条实体记录,实体名命名格式为”<发震时刻月.日>+<发震地点>+地震”,其包含发震时刻、发震地点、震级、震源深度、经纬度五个实体属性,其实体类型为地震事件,并为其分配一条实体id作为唯一标识。实体入库格式如图2。S02:提取地震新闻,抽取新闻中地震基本信息,并按照其在新闻中出现的顺序排列成地震信息数组。具体包括:获取全网新闻数据,判断是否为地震新闻并抽取新闻中地震基本信息,地震基本信息包括:发震时刻、发震地点、震级、震源深度、经纬度;对地震新闻进行地震基本信息提取的方法包括,对地震新闻内提及的五类地震基本信息发震时刻、发震地点、震级、震源深度、经纬度使用正则表达式进行提取。具体的包括:1、使用正则表本文档来自技高网...

【技术保护点】
1.一种地震事件实体链接方法,其特征在于,包括:/n实时爬取地震局地震目录数据,将获取的地震数据以事件实体的形式存入实体库;/n提取地震新闻,抽取地震新闻中地震基本信息,并按照其在地震新闻中出现的顺序排列成地震信息数组;/n对地震信息数组先基于震源深度信息进行信息分组,并对各分组信息基于预设的地震新闻报道的顺序结构和地震信息逻辑判别方法将地震基本信息数组分成若干地震信息数组;/n基于实体库内注册的地震信息和地震识别方法对地震信息数组进行地震识别,并将识别出的地震与该地震新闻进行链接。/n

【技术特征摘要】
20200812 CN 20201080825941.一种地震事件实体链接方法,其特征在于,包括:
实时爬取地震局地震目录数据,将获取的地震数据以事件实体的形式存入实体库;
提取地震新闻,抽取地震新闻中地震基本信息,并按照其在地震新闻中出现的顺序排列成地震信息数组;
对地震信息数组先基于震源深度信息进行信息分组,并对各分组信息基于预设的地震新闻报道的顺序结构和地震信息逻辑判别方法将地震基本信息数组分成若干地震信息数组;
基于实体库内注册的地震信息和地震识别方法对地震信息数组进行地震识别,并将识别出的地震与该地震新闻进行链接。


2.根据权利要求1所述的地震事件实体链接方法,其特征在于,
对地震目录中的发震地点通过地点实体库实体识别功能进行归一化处理,根据地点实体库实体识别模块,将地震局地震目录上的发震地点归一化处理为省市县三级格式;
将经过发震地点归一化处理后的中地震局地震数据存入实体库的方法包括:将地震局的每一条地震信息作为一条实体记录,其包含发震时刻、发震地点、震级、震源深度、经纬度五个实体属性,其实体类型为地震事件,并为其分配一条实体id作为唯一标识。


3.根据权利要求1所述的地震事件实体链接方法,其特征在于,对地震新闻进行地震基本信息提取,地震基本信息包括五类地震基本信息:发震时刻、发震地点、震级、震源深度、经纬度;对所述五类地震基本信息按照在文中的出现顺序放入到一个数组中。


4.根据权利要求3所述的地震事件实体链接方法,其特征在于,使用正则表达式提取出的地震基本信息放入分词词典中,再使用jieba模块加载分词词典,然后使用jieba模块对新闻进行分词,最后按照提取出的地震基本信息在文中的出现顺序,放入到一个数组中。

【专利技术属性】
技术研发人员:郭彦男刘方然徐常亮贺大为
申请(专利权)人:新华智云科技有限公司新华通讯社新媒体中心
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1