当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种基于LSTM-TextCNN算法结合词云展示的事故分类方法、存储介质及装置制造方法及图纸

技术编号:37764051 阅读:34 留言:0更新日期:2023-06-06 13:22
本发明专利技术公开了一种基于LSTM

【技术实现步骤摘要】
一种基于LSTM

TextCNN算法结合词云展示的事故分类方法、存储介质及装置


[0001]本专利技术涉及自然语言处理和文本分类领域,尤其涉及一种基于LSTM

TextCNN算法结合词云展示的事故分类方法、存储介质及装置。

技术介绍

[0002]长短期记忆网络(long short

term memory,LSTM)是在1997年由Hochreiter和Schmidhuber提出的,是一种特殊的循环神经网络的机器学习模型。它能够记住任意时间段的输入和预测输出,并且解决了循环神经网络中的梯度消失和爆炸的问题,被广泛应用于自然语言处理领域。
[0003]文献“Convolutional Neural Networks for Sentence Classification”提出了TextCNN模型,TextCNN通过一维卷积来获取句子中n

gram的特征表示。TextCNN对文本浅层特征的抽取能力很强,在短文本领域如搜索、对话领域专注于意图分类时效果很好,应用广本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于LSTM

TextCNN算法结合词云展示的事故分类方法,其特征在于,包括以下步骤:(1)数据挖掘:通过事故信息网络地址,向网络服务器发送页面请求,得到事故信息的可拓展标记语言文本;使用可拓展标记语言的路径语言来进行匹配与查找,得到文本类数据,形成csv文件;其中,所述文本类数据包括事故名称爬取、事故分类数据、事故链接数据、事故介绍数据、事故原因数据、事故处理数据;(2)表结构的确定:确定事故、种类标签和所爬取的数据之间的关联关系;其中表结构包括以下字段:id字段,类型为INT、存储记录序号;name字段,类型为CHAR、存储事故名称数据;label字段,类型为INT、存储事故种类标签;link字段,类型为VARCHAR、存储事故链接数据;introduction字段,类型为TEXT、存储事故介绍数据;reason字段,类型为TEXT、存储事故原因数据;treatment字段,类型为TEXT、存储事故处理措施;(3)数据预处理,包括:数据清理、句子切分、去停用词处理、数据入库;(4)对存储在数据库的事故信息数据进行分类训练;(5)利用词云图方法,进行事故分类信息关键词的词云图展示;(6)后端设计:通过建立多种服务获取全方位的事故信息。2.根据权利要求1所述的一种基于LSTM

TextCNN算法结合词云展示的事故分类方法,其特征在于,所述步骤(3)包括以下步骤:(31)数据清理:将重复的词以及空格或与事故信息无关的文本信息删除;(32)句子切分:用篇作为单位,对经过数据清理的事故信息按照标点符号切分为句子;(33)去停用词处理:采用人工校验方法,将无关词与通用停用词进行组合,创建相应的停用词表;(34)数据入库:将处理后的数据导入数据库即将所爬取的csv格式文件数据导入MySQL数据库。3.根据权利要求1所述的一种基于LSTM

TextCNN算法结合词云展示的事故分类方法,其特征在于,所述步骤(4)包括以下步骤:(41)设定word2vec模型需要使用的参数,包括:字向量维数、并行线程数、当前词与目标词之间的最大距离、训练轮次;(42)将经过步骤(3)处理的事故信息以8:2的比例分为训练集数据和测试集数据,训练集数据和测试集数据分别作为word2...

【专利技术属性】
技术研发人员:陈剑洪简相强徐豪陈天赐刘津铭
申请(专利权)人:淮阴工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1