【技术实现步骤摘要】
一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法
本专利技术涉及一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法,属于互联网信息分类
技术介绍
社交媒体已经成为人类生活中不可或缺的一部分,如推特、微博等。当自然灾害发生时,如火灾、地震、山洪、海啸、泥石流等自然灾害或枪击、抢劫等突发事件时,如果仅仅通过媒体转播,事件救援的周期会非常缓慢。2019年2月28日中国互联网络信息中心(CNNIC)在京发布第43次《中国互联网络发展状况统计报告》,截至2018年12月,我国网民规模达8.29亿,普及率达59.6%,较2017年底提升3.8个百分点,全年新增网民5653万;我国手机网民规模达8.17亿,网民通过手机接入互联网比例高达98.6%,人们喜欢在社交媒体上进行灾后评估或活动。如何通过对社交媒体上的文本进行分类来过滤此类自然灾害或紧急情况并将重要信息报告给相关人员,让工作人员了解事件的进展情况以提供帮助,是一个很具有挑战性的工作。
技术实现思路
为了解决 ...
【技术保护点】
1.一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法,其特征在于:包括训练阶段和分类阶段,/n其中,训练阶段具体包括/n步骤(1)训练数据集预处理,训练数据集包括社交媒体训练文本和对应的分类标签,以及警报性标签;/n步骤(2)用BERT模型获取训练数据集的词向量;/n步骤(3)用双向LSTM算法对训练数据集的词向量序列进行特征提取;/n步骤(4)用注意力机制加权获取训练文本-标签重要性特征向量;/n步骤(4.1)利用注意力机制,按照输入序列中单词的重要性,加权步骤(3)得到的训练文本的双向LSTM特征向量;/n步骤(4.2)用注意力机制将标签的特征向量与 ...
【技术特征摘要】
1.一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法,其特征在于:包括训练阶段和分类阶段,
其中,训练阶段具体包括
步骤(1)训练数据集预处理,训练数据集包括社交媒体训练文本和对应的分类标签,以及警报性标签;
步骤(2)用BERT模型获取训练数据集的词向量;
步骤(3)用双向LSTM算法对训练数据集的词向量序列进行特征提取;
步骤(4)用注意力机制加权获取训练文本-标签重要性特征向量;
步骤(4.1)利用注意力机制,按照输入序列中单词的重要性,加权步骤(3)得到的训练文本的双向LSTM特征向量;
步骤(4.2)用注意力机制将标签的特征向量与加权好的文本向量再次加权,获取包含单词重要性及文本和标签相对重要性的特征向量;
步骤(5)构建前馈神经网络并进行系统训练,所述前馈神经网络用于对获得的文本-标签重要性特征向量进行分类;
分类阶段具体包括
将接收的待分类社交媒体文本进行预处理,然后用BERT模型获取待分类社交媒体文本词向量,接下来利用训练完成的步骤(4.1)的注意力机制,提取用注意力机制加权后的待分类文本的双向LSTM特征向量,最后输入训练完成的前馈神经网络分别进行信息类别的分类和警报性类别的分类。
2.根据权利要求1所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法,其特征在于:步骤(1)所述的预处理具体包括,
步骤(1.1)文本预处理
对文本数据进行分词、去除停用,英文大写转小写,中文繁体转简体;
步骤(1.2)消除文本数据中的冗余推文
推文之间的相似性定义如下公式所示;
其中T1,T2表示两条推文,length(∩(T1,T2))表示两条推文相同部分的字符数,
若是中文数据则是相同部分的字数,length(∪(T1,T2))表示两条推文的字符或字的总数,当两条推文相似性大于阈值时,删除T1和T2之间字符或字总数较少的推文。
3.根据权利要求1所述的所述的一种基于BERT与双向LSTM、注意力机制融合的关于灾难信息博文分类方法,其特征在于:步骤(3)所述的特征提取过程具体包括,
步骤(3.1)用双向LSTM算法对输入的词向量序列进行特征提取
其中是双向LSTM从左到右对输入的词向量做特征提取,是双向LSTM从右到
左对输入的词向量做特征提取,hi是对两个方向的特征向量做加法,获得输入
词向量的双向的LSTM特征向量。
4.根据权利要求1所述的所述的一种基于BERT与双向L...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。