【技术实现步骤摘要】
一种基于地震新闻事件的地震数据结构化自动方法
本专利技术涉及自然语言处理
,具体涉及一种基于地震新闻事件的地震数据结构化自动方法。
技术介绍
地震新闻事件一般是指在某时某地由于发生地震而获取的相关新闻内容,它通常由许多要素构成,一般包括:发生时间、震中位置、震源深度、震级、受伤人数、死亡人数、直接经济损失等。全球每年发生的大小地震多达10万次,仅中国2018年发生3.0级以上的地震数量为542次,而关于这些地震的相关新闻报道更是不计其数。从海量的地震新闻报道中抽取有价值的要素内容并整合结构化,将为后续地震灾害分析和预测提供必要的基础信息。随着互联网信息公开化程度的提升和自然语言处理技术的发展,通过网络获取原始地震新闻信息再利用自然语言模型加工处理得到对应结果的方案已成为现实。该方法可实现自动获取地震相关信息,便于后期检索、分析;且不需要人为查找、筛选,大大降低了人力成本,具有重要的大数据价值。
技术实现思路
有鉴于此,本专利技术提出一种基于地震新闻事件的地震数据结构化自动方法,通过网络爬虫不 ...
【技术保护点】
1.一种基于地震新闻事件的地震数据结构化自动方法,其特征在于,包括如下步骤:/n步骤(1):利用网络爬虫爬取地震网站的相关新闻;预先选取地震新闻源网站并设置对应的XPath路径,爬虫会自动下载新闻列表中的所有新闻;/n步骤(2):通过BIO标注方式,对采集到的新闻数据标注其中的触发词和事件要素;/n步骤(3):将标注完的新闻数据集随机划分为训练数据集和测试数据集,其中测试数据集占20%;/n步骤(4):构建地震事件抽取模型,地震事件抽取模型采用Bi-LSTM和CRF组合的方式实现;/n步骤(5):训练步骤(4)构建的地震事件抽取模型;/n步骤(6):将训练好的地震事件抽取模 ...
【技术特征摘要】
1.一种基于地震新闻事件的地震数据结构化自动方法,其特征在于,包括如下步骤:
步骤(1):利用网络爬虫爬取地震网站的相关新闻;预先选取地震新闻源网站并设置对应的XPath路径,爬虫会自动下载新闻列表中的所有新闻;
步骤(2):通过BIO标注方式,对采集到的新闻数据标注其中的触发词和事件要素;
步骤(3):将标注完的新闻数据集随机划分为训练数据集和测试数据集,其中测试数据集占20%;
步骤(4):构建地震事件抽取模型,地震事件抽取模型采用Bi-LSTM和CRF组合的方式实现;
步骤(5):训练步骤(4)构建的地震事件抽取模型;
步骤(6):将训练好的地震事件抽取模型部署到实际应用中。
2.根据权利要求1中所述的一种基于地震新闻事件的地震数据结构化自动方法,其特征在于,步骤(1)中的触发词是先决条件,只有检测到触发词,认为是地震事件,才会进一步提取事件要素;
触发词用于判断是否为地震事件,包含‘地震’关键词,若检测到触发词,则认为是地震事件;事件要素包含发生时间、震中位置、震源深度、震级、受伤人数、死亡人数、直接经济损失这7类内容;其中,“B-事件要素”代表某一要素的开头,“I-事件要素”代表某一要素的中间,“O”代表非事件要素。
3.根据权利要求1中所述的一种基于地震新闻事件的地震数据结构化自动方法,其特征在于,步骤(4)的具体流程如下:
(4.1)、地震事件抽取模型输入为新闻内容的字符,内容长度任意,记为n;首先通过word2vec模块将每一个字符转化为对应的向量xi;word2vec模块是一个已经训练完成的开源字符向量库,其中收录了中文字符、英文字母、标点符号等常用字符,且每一个字符对应的向量xi维度大小均为100;查找新闻内容每一个字符对应的向量,该word2vec模块最后输出为n×100(x1,x2,…,xn),其中Λ代表长度为100的向量,此步骤目的是使新闻内容数字化;
(4.2)、将上一步骤(4.1)中每一个字符对应的向量xi,依次作为Bi-LSTM模块的输入,经过循环计算,得到每一个LSTM单元的输出向量yi,向量yi的维度大小为17,向量yi的含义为17种标签对应的概率值,该Bi-LSTM模块最后输出为...
【专利技术属性】
技术研发人员:俞一奇,邱彦林,陈尚武,
申请(专利权)人:杭州叙简科技股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。