自然灾害事件的抽取方法、装置、设备以及存储介质制造方法及图纸

技术编号：26504995 阅读：23 留言：0更新日期：2020-11-27 15:32

本申请实施例公开了自然灾害事件的抽取方法、装置、设备以及存储介质，涉及深度学习技术领域。该自然灾害事件的抽取方法的一具体实施方式包括：对新闻文本进行分句处理，得到每个字的词向量；将每个字的词向量输入至预训练模型同时进行训练和预测，所述预训练模型输出每个字的词向量的特征向量；创建触发词和要素提取模型，以及利用迁移学习的方法将预训练模型作为触发词和要素提取模型的词嵌入层；利用所述触发词和要素提取模型，基于深度学习的方法从新闻文本中抽取自然灾害事件的触发词和要素，从而大大增强了触发词和事件句的语义相关性，大幅度提升了事件触发词抽取及要素抽取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
自然灾害事件的抽取方法、装置、设备以及存储介质
本申请涉及计算机
，具体涉及深度学习领域，尤其涉及自然灾害事件的抽取方法、装置、设备以及存储介质。
技术介绍
快速准确地从庞杂的互联网信息中抽取自然灾害事件对于政府统计灾民损失、及早采取措施以及辅助相关部门决策都有重大意义。现有的各种技术是基于事件触发词词典匹配事件核心词汇，或者通过分词然后对词汇提取特征进行机器学习分类，这些传统方法无法有效地考虑句子的语义，造成经常提取出错误的事件触发词，提取与触发词匹配的其它相关要素的准确率较低。
技术实现思路
为了解决上述
技术介绍
部分提到的一个或多个技术问题，本申请实施例提供了自然灾害事件的抽取方法、装置、设备以及存储介质。第一方面，本申请实施例提供了自然灾害事件的抽取方法，包括：对新闻文本进行分句处理，得到每个字的词向量；将每个字的词向量输入至预训练模型同时进行训练和预测，所述预训练模型输出每个字的词向量的特征向量；创建触发词和要素提取模型，以及利用迁移学习的方法将预训练模型作为触发词和要素提取...

【技术保护点】
1.一种自然灾害事件的抽取方法，包括：/n对新闻文本进行分句处理，得到每个字的词向量；/n将所述每个字的词向量输入至预训练模型同时进行训练和预测，所述预训练模型输出每个字的词向量的特征向量；/n创建触发词和要素提取模型，以及利用迁移学习的方法将预训练模型作为触发词和要素提取模型的词嵌入层；/n利用所述触发词和要素提取模型，基于深度学习的方法从新闻文本中抽取自然灾害事件的触发词和要素。/n

【技术特征摘要】
1.一种自然灾害事件的抽取方法，包括：
对新闻文本进行分句处理，得到每个字的词向量；
将所述每个字的词向量输入至预训练模型同时进行训练和预测，所述预训练模型输出每个字的词向量的特征向量；
创建触发词和要素提取模型，以及利用迁移学习的方法将预训练模型作为触发词和要素提取模型的词嵌入层；
利用所述触发词和要素提取模型，基于深度学习的方法从新闻文本中抽取自然灾害事件的触发词和要素。

2.根据权利要求1所述的方法，还包括：
将所述触发词和要素提取模型抽取的自然灾害事件的触发词和要素输入至卷积神经网络模型进行匹配，将与触发词匹配的要素作为自然灾害事件要素；
对所述触发词和自然灾害事件要素进行结构化处理并输出处理结果。

3.根据权利要求1所述的方法，其中，所述触发词和要素提取模型为BiLSTM+Attention+CFR模型，所述BiLSTM用于提取向量特征，Attention用于对向量作注意力变换，CFR用于预测向量的标签。

4.根据权利要求1所述的方法，其中，所述将每个字的词向量输入至预训练模型同时进行训练和预测还包括：
利用word2vec模型对词向量进行训练，得到预训练词向量表；
对于新闻文本中的每一个字，若该字在预训练词向量表中存在，则使用表中的词向量作为该字的词向量；
若新闻文本中的某一个字在预训练词向量表中不存在，则使用正态分布随机初始化向量作为该字的词向量。

5.根据权利要求1所述的方法，其中，所述预训练模型为Bert模型。

6.一种自然灾害事件的抽取装置，其特征在于，所述装置包括：
分句模块，被配置为对新闻文本进行分句处理，得到每个字的词向量；
预训练和预测模块，被配置为将每个字的词向量输入至预训练模型同时进行训练和预测，所述预训练模型输出每个字的词向量的特征向量；
...

【专利技术属性】
技术研发人员：潘旭，方军，黄强，李云聪，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人