一种基于深度学习的民航微博安保舆情情感分析方法技术

技术编号:18940833 阅读:76 留言:0更新日期:2018-09-15 11:08
一种基于深度学习的民航微博安保舆情情感分析方法。其包括如下步骤:对微博数据集中的文本内容进行预处理和分词;训练词向量;构建组合的深度学习网络C‑LSTM,训练基于该网络的分类器,对微博文本中是否含有民航安保威胁内容进行分类;针对有威胁的微博文本细化打分,评定其威胁度等级。本发明专利技术先利用基于深度学习的方法训练分类器,粗略过滤出有关民航的主观负面言论,去除客观言论如新闻、陈述事实的微博;再利用民航舆情关键词语和规则计算并划分威胁度等级。解决了基于词语典和规则的方法中因含有民航舆情关键词语的客观言论被判为高威胁度等级的问题,具有适用性更强、准确率更高的特点。

A deep learning based sentiment analysis method for civil aviation micro-blog security

A deep learning based civil aviation micro-blog security public sentiment analysis method. It includes the following steps: pre-processing and segmentation of the text content in the microblog data set; training word vectors; constructing a combination of in-depth learning network C_LSTM, training classifiers based on the network, classifying whether the microblog text contains civil aviation security threat content; refining and scoring the threatening microblog text. Assess its threat level. First, the classifier is trained by the method based on in-depth learning, and the subjective negative speech about civil aviation is roughly filtered out, and the objective speech such as news and facts are removed. Then, the threat level is calculated and classified by using the key words and rules of civil aviation public opinion. It solves the problem that the objective speech containing the key words of civil aviation public opinion is judged as a high threat level in the method based on dictionary and rules, and has the characteristics of stronger applicability and higher accuracy.

【技术实现步骤摘要】
一种基于深度学习的民航微博安保舆情情感分析方法
本专利技术属于自然语言处理中的文本情感分析
,尤其涉及一种基于深度学习的民航微博安保舆情情感分析方法。
技术介绍
近年来,互联网上各类航班、机场炸弹威胁以及虚假恐怖信息呈高发势头。某些群众因对社会不满,往往在网上发布虚假威胁言论、谣言以及偏激语言等,面临恐怖威胁时,相比其它行业,民航业通常遭受更大伤害。微博因具有传播速度快、信息开放、影响广泛且发布者身份不易泄露的特点,是一种常见的恐怖信息传播途径。情感分析是对带有情感色彩的文本进行处理、分析和应用的过程,它可以从文本数据中获取用户观点和情感倾向,有着重要的实用价值。情感分析的研究方法与技术手段通常与研究目标有关,总体来讲,现有研究成果多应用于产品领域或舆情分析领域,如公众对产品或事件的评价和意见。用于民航恐怖信息的情感分析方法极为少见,通过对与民航有关的微博文本进行情感分析,可以过滤出对民航安全有威胁的微博,从而锁定有犯罪倾向的重点用户。目前,中文文本情感分析方法主要有基于语义理解和基于传统机器学习两类方法。但这两种方法应用于微博情感分析中主要存在以下问题:①基于语义理解的方法用构建基准褒贬词语库和定义表达规则的方法对语料进行模式匹配,对于表达方式复杂、不规则的微博文本处理上有很大的局限性。②基于传统机器学习的方法需要复杂的特征工程,耗费大量的人工成本。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供一种基于深度学习的民航微博安保舆情情感分析方法。为了达到上述目的,本专利技术提供的基于深度学习的民航安保舆情情感分析方法包括按顺序进行的下列步骤:(1)从网上大量的文本中筛选出与民航安保舆情相关的关键词,由这些关键词和对应的威胁强度值构成关键词库;(2)将根据民航安保舆情关键词筛选出的微博文本以及对应的标签作为训练集,对训练集中的微博文本进行预处理操作和分词处理;每一微博文本由至少一个微博子句构成,标签分为威胁和无威胁两种;(3)对由步骤(2)得到的分词后的微博文本进行词向量训练,得到词向量模型;(4)构建卷积神经网络和长短时记忆网络的组合深度学习网络,并在组合深度学习网络后加入全连接层以及softmax层,共同构成组合深度学习分类模型;(5)将训练集中分词后的微博文本输入到步骤(3)得到的词向量模型中,将微博文本向量化;(6)将步骤(5)中获得的向量化后的微博文本以及对应的标签输入到组合深度学习模型中,训练组合深度学习分类模型的组合深度学习网络中的有无威胁文本分类器并保存(7)将待分析的微博文本按照步骤(2)的方法进行预处理操作和分词处理后,通过步骤(3)获得的词向量模型进行微博文本向量化,然后输入到上述步骤(6)获得的有无威胁分类器中进行分类,最后针对判定为有威胁的微博文本进一步根据情感词典和规则计算威胁度分值;(8)根据上述威胁度分值判定威胁度等级。在步骤(1)中,所述的关键词分为地点词语和行为词语两类;其中行为词语有两个属性,第一个属性为威胁强度值,用于衡量该词语对民航安保的威胁程度,度量标准分为1,3,5,7,9五种强度;第二个属性为词语类型,词语类型分为两类,一类为直接型,即只出现这一个词语就能判定为对民航有威胁;另一类为间接型,即必须与地点词语同时出现才能判定出是否对民航安保有威胁。在步骤(2)中,所述的对训练集中的微博文本进行预处理操作和分词处理的方法是:预处理操作包括去除微博文本中的网页链接、转发、回复微博时的用户昵称、特殊字符在内的噪声信息,保留无威胁微博文本中的话题标签,作为区分包含民航舆情关键词的微博文本是主观威胁言论还是新闻话题的重要特征;然后利用分词工具对上述预处理后的微博文本进行分词。在步骤(3)中,所述的词向量训练采用word2vec算法中的Skip_gram方法,保存用该方法训练得到的词向量模型。在步骤(4)中,构建卷积神经网络和长短时记忆网络的组合深度学习网络,并在组合深度学习网络后加入全连接层以及softmax层,共同构成组合深度学习分类模型的方法是:利用不同的卷积核与输入层中的句子矩阵进行卷积操作;将同一尺寸卷积核下的特征值按时间顺序拼接起来,作为长短时记忆网络的输入,通过长短时记忆网络进一步获取微博文本的上下文关系特征;全连接层经过非线性变换后得到标签的得分向量;当标签的得分向量经过softmax层后,会计算出分类概率,最终得到分类的类别。在步骤(5)中,所述的将微博文本向量化的方法是:在词向量模型中找到微博文本每个词语对应的词向量,然后将词向量拼接为句子矩阵。在步骤(6)中,所述的将步骤(5)中获得的向量化后的微博文本以及对应的标签输入到步骤(4)获得的组合深度学习分类模型中进行训练,将训练好的模型称为有无威胁文本分类器的方法是:组合深度学习分类模型采用SGD优化技术并通过最小化交叉熵函数不断更新训练权重,对全连接层中的参数执行dropout操作以防止模型过拟合,根据训练集的规模选择合适的mini-batch大小,最终将训练得到的分类模型保存下来,用于直接对输入的微博文本进行分类。在步骤(7)中,所述的计算威胁度得分的方法是:1)提取出有威胁微博文本中的情感词,计算出每一微博子句的情感得分;2)提取出有威胁微博文本中的表情符号,计算出每一微博子句的表情符号得分;并将上述情感得分和表情符号得分进行加权求和,得到每一微博子句的情感分值;3)根据民航安保舆情关键词库,计算出微博文本的行为威胁得分;4)将上述微博文本的情感分值和行为威胁得分进行加权求和,最终得到微博文本的威胁度得分。在步骤(8)中,所述的根据威胁度分值判定威胁度等级的方法是:根据步骤(7)获得的威胁度分值,采用阈值法将有威胁的微博文本划分为高、中、低威胁等级。本专利技术提供的基于深度学习的民航微博安保舆情情感分析方法具有以下优点:(1)本专利技术先利用文本分类器粗略过滤出有威胁的微博文本,然后利用民航舆情关键词库和句法规则计算出威胁度分值,提高了效率和准确率。(2)训练文本分类器时采用CNN和LSTM组合的神经网络,避免了大量的人工特征工程并使得文本特征提取的更全面,分类准确率更高。附图说明图1为本专利技术提供的基于深度学习的民航微博安保舆情情感分析方法流程图。图2为本专利技术中组合深度学习模型整体结构图。具体实施方式下面结合附图和具体实施例对本专利技术提供的基于深度学习的民航微博安保舆情情感分析方法进行详细说明。如图1和图2所示,本专利技术提供的民航安保微博舆情情感分析方法包括按顺序进行的下列步骤:(1)从网上大量的文本中筛选出与民航安保舆情相关的关键词,由这些关键词和对应的威胁强度值构成关键词库;关键词分为地点词语和行为词语两类。其中地点词语包括机场、跑道、航站楼、航班等,行为词语包括炸机、劫机、霸机、空闹、斗殴、抗议、抽烟等;其中行为词语有两个属性,第一个属性为威胁强度值,用于衡量该词语对民航安保的威胁程度,度量标准分为1,3,5,7,9五种强度。第二个属性为词语类型,词语类型分为两类,一类为直接型,即只出现这一个词语就能判定为对民航有威胁,例如炸机、劫机、霸机、空闹等;另一类为间接型,即必须与地点词语同时出现才能判定出是否对民航安保有威胁,例如斗殴、抗议、抽烟等。只存在间接型行为词语时,不足以判断其对民航安本文档来自技高网...

【技术保护点】
1.一种基于深度学习的民航微博安保舆情情感分析方法,其特征在于:其包括按顺序进行的下列步骤:(1)从网上大量的文本中筛选出与民航安保舆情相关的关键词,由这些关键词和对应的威胁强度值构成关键词库;(2)将根据民航安保舆情关键词筛选出的微博文本以及对应的标签作为训练集,对训练集中的微博文本进行预处理操作和分词处理;每一微博文本由至少一个微博子句构成,标签分为威胁和无威胁两种;(3)对由步骤(2)得到的分词后的微博文本进行词向量训练,得到词向量模型;(4)构建卷积神经网络和长短时记忆网络的组合深度学习网络,并在组合深度学习网络后加入全连接层以及softmax层,共同构成组合深度学习分类模型;(5)将训练集中分词后的微博文本输入到步骤(3)得到的词向量模型中,将微博文本向量化;(6)将步骤(5)中获得的向量化后的微博文本以及对应的标签输入到组合深度学习模型中,训练组合深度学习分类模型的组合深度学习网络中的有无威胁文本分类器并保存(7)将待分析的微博文本按照步骤(2)的方法进行预处理操作和分词处理后,通过步骤(3)获得的词向量模型进行微博文本向量化,然后输入到上述步骤(6)获得的有无威胁分类器中进行分类,最后针对判定为有威胁的微博文本进一步根据情感词典和规则计算威胁度分值;(8)根据上述威胁度分值判定威胁度等级。...

【技术特征摘要】
1.一种基于深度学习的民航微博安保舆情情感分析方法,其特征在于:其包括按顺序进行的下列步骤:(1)从网上大量的文本中筛选出与民航安保舆情相关的关键词,由这些关键词和对应的威胁强度值构成关键词库;(2)将根据民航安保舆情关键词筛选出的微博文本以及对应的标签作为训练集,对训练集中的微博文本进行预处理操作和分词处理;每一微博文本由至少一个微博子句构成,标签分为威胁和无威胁两种;(3)对由步骤(2)得到的分词后的微博文本进行词向量训练,得到词向量模型;(4)构建卷积神经网络和长短时记忆网络的组合深度学习网络,并在组合深度学习网络后加入全连接层以及softmax层,共同构成组合深度学习分类模型;(5)将训练集中分词后的微博文本输入到步骤(3)得到的词向量模型中,将微博文本向量化;(6)将步骤(5)中获得的向量化后的微博文本以及对应的标签输入到组合深度学习模型中,训练组合深度学习分类模型的组合深度学习网络中的有无威胁文本分类器并保存(7)将待分析的微博文本按照步骤(2)的方法进行预处理操作和分词处理后,通过步骤(3)获得的词向量模型进行微博文本向量化,然后输入到上述步骤(6)获得的有无威胁分类器中进行分类,最后针对判定为有威胁的微博文本进一步根据情感词典和规则计算威胁度分值;(8)根据上述威胁度分值判定威胁度等级。2.根据权利要求1所述的基于深度学习的民航微博舆情情感分析方法,其特征在于:在步骤(1)中,所述的关键词分为地点词语和行为词语两类;其中行为词语有两个属性,第一个属性为威胁强度值,用于衡量该词语对民航安保的威胁程度,度量标准分为1,3,5,7,9五种强度;第二个属性为词语类型,词语类型分为两类,一类为直接型,即只出现这一个词语就能判定为对民航有威胁;另一类为间接型,即必须与地点词语同时出现才能判定出是否对民航安保有威胁。3.根据权利要求1所述的基于深度学习的民航微博舆情情感分析方法,其特征在于:在步骤(2)中,所述的对训练集中的微博文本进行预处理操作和分词处理的方法是:预处理操作包括去除微博文本中的网页链接、转发、回复微博时的用户昵称、特殊字符在内的噪声信息,保留无威胁微博文本中的话题标签,作为区分包含民航舆情关键词的微博文本是主观威胁言论还是新闻话题的重要特征;然后利用分词工具对上述预处理后的微博文本进行分词。4.根据权利要求1所述的基于深度学习的民航微博舆情情感分析方法,其特征在于:在步骤(3)中,所述...

【专利技术属性】
技术研发人员:韩萍孙佳慧方澄贾云飞
申请(专利权)人:中国民航大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1