基于深度循环神经网络的事故信息自动提取方法及系统技术方案

技术编号:25599861 阅读:81 留言:0更新日期:2020-09-11 23:57
本发明专利技术公开了一种基于深度循环神经网络的事故信息自动提取方法及系统,涉及建筑事故信息自动领域,主要包括:采用词向量模型对待提取结构化数据的建筑事故文本信息进行处理,得到建筑事故文本信息对应的字符对序列;将字符对序列输入到训练好的命名实体识别模型中,以获取建筑事故文本信息对应的命名实体标注结果;训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构,然后根据样本数据集对命名实体识别结构进行训练得到的;根据建筑事故文本信息对应的命名实体标注结果,提取结构化建筑事故数据。本发明专利技术能够低成本的获取所需的结构化事故数据。

【技术实现步骤摘要】
基于深度循环神经网络的事故信息自动提取方法及系统
本专利技术涉及建筑事故信息自动领域,特别是涉及一种基于深度循环神经网络的事故信息自动提取方法及系统。
技术介绍
在开发事故风险预测平台时发现,在人工检索事故信息文本过程中,从中提取有用信息的成本极高,且结构化的事故信息文本又难以利用。
技术实现思路
针对
技术介绍
存在的缺陷,本专利技术提供了一种基于深度循环神经网络的事故信息自动提取方法及系统。为实现上述目的,本专利技术提供了如下方案:一种基于深度循环神经网络的事故信息自动提取方法,包括:获取待提取结构化数据的建筑事故文本信息;采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列;将所述字符对序列输入到训练好的命名实体识别模型中,以获取所述建筑事故文本信息对应的命名实体标注结果;所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率,并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果;所述训练好的本文档来自技高网...

【技术保护点】
1.一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,包括:/n获取待提取结构化数据的建筑事故文本信息;/n采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列;/n将所述字符对序列输入到训练好的命名实体识别模型中,以获取所述建筑事故文本信息对应的命名实体标注结果;所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率,并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果;所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构,然后根据样本数据集对所述命名...

【技术特征摘要】
1.一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,包括:
获取待提取结构化数据的建筑事故文本信息;
采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列;
将所述字符对序列输入到训练好的命名实体识别模型中,以获取所述建筑事故文本信息对应的命名实体标注结果;所述训练好的命名实体识别模型用于计算所述字符对序列中的每个字的命名实体类别标志概率,并且以最大命名实体类别标志概率对应的标注结果确定为所述字符对序列的命名实体标注结果;所述训练好的命名实体识别模型是先根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构,然后根据样本数据集对所述命名实体识别结构进行训练得到的;所述样本数据集为建筑事故新闻文本样本信息经过处理后得到的样本字符对序列集;所述样本字符对序列包括多个字以及每个所述字对应的命名实体标注结果;
根据所述建筑事故文本信息对应的命名实体标注结果,提取结构化建筑事故数据。


2.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,还包括:
根据所有所述建筑事故文本信息对应的结构化建筑事故数据,构建建筑事故知识库。


3.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,所述采用词向量模型对所述建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列,具体包括:
将所述建筑事故文本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故文本信息;
以逗号和句号为分隔符,对所述预处理后的建筑事故文本信息进行分段处理;
计算所有分段处理后的建筑事故文本信息的平均长度,并记作m;
将长度大于m的分段处理后的建筑事故文本信息去掉第m个字后面的所有字符,将长度小于m的分段处理后的建筑事故文本信息增加无意义字符直到长度为m,进而得到长度一致的建筑事故文本信息;
采用word2vec模型对所述长度一致的建筑事故文本信息进行处理,得到所述建筑事故文本信息对应的字符对序列。


4.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,所述训练好的命名实体识别模型的构建过程为:
根据双向长短期记忆神经网络和条件随机场层构建命名实体识别结构;其中,所述双向长短期记忆神经网络包含一个输入层、两个隐含层和一个softmax层,且所述双向长短期记忆神经网络的输出为所述条件随机场层的输入;
将样本数据集中的样本字符对序列依次输入到所述命名实体识别结构中,并结合反向传播算法,对所述命名实体识别结构进行训练,以得到训练好的命名实体识别模型。


5.根据权利要求1所述的一种基于深度循环神经网络的事故信息自动提取方法,其特征在于,所述样本数据集的构建过程为:
采用网络爬虫技术获取多条无标注的建筑事故新闻文本样本信息;
将所有所述建筑事故新闻文本样本信息转化为UTF-8编码的中文字符,并对所述中文字符进行无效字符去除处理,得到预处理后的建筑事故新闻文本样本信息;
以逗号和句号为分隔符,对所述预处理后的建筑事故新闻文本样本信息进行...

【专利技术属性】
技术研发人员:王彦忠纪梅周红波蔡来炳杨奇
申请(专利权)人:上海建科工程咨询有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1