A deep learning based civil aviation micro-blog security public sentiment analysis method. It includes the following steps: pre-processing and segmentation of the text content in the microblog data set; training word vectors; constructing a combination of in-depth learning network C_LSTM, training classifiers based on the network, classifying whether the microblog text contains civil aviation security threat content; refining and scoring the threatening microblog text. Assess its threat level. First, the classifier is trained by the method based on in-depth learning, and the subjective negative speech about civil aviation is roughly filtered out, and the objective speech such as news and facts are removed. Then, the threat level is calculated and classified by using the key words and rules of civil aviation public opinion. It solves the problem that the objective speech containing the key words of civil aviation public opinion is judged as a high threat level in the method based on dictionary and rules, and has the characteristics of stronger applicability and higher accuracy.
【技术实现步骤摘要】
一种基于深度学习的民航微博安保舆情情感分析方法
本专利技术属于自然语言处理中的文本情感分析
,尤其涉及一种基于深度学习的民航微博安保舆情情感分析方法。
技术介绍
近年来,互联网上各类航班、机场炸弹威胁以及虚假恐怖信息呈高发势头。某些群众因对社会不满,往往在网上发布虚假威胁言论、谣言以及偏激语言等,面临恐怖威胁时,相比其它行业,民航业通常遭受更大伤害。微博因具有传播速度快、信息开放、影响广泛且发布者身份不易泄露的特点,是一种常见的恐怖信息传播途径。情感分析是对带有情感色彩的文本进行处理、分析和应用的过程,它可以从文本数据中获取用户观点和情感倾向,有着重要的实用价值。情感分析的研究方法与技术手段通常与研究目标有关,总体来讲,现有研究成果多应用于产品领域或舆情分析领域,如公众对产品或事件的评价和意见。用于民航恐怖信息的情感分析方法极为少见,通过对与民航有关的微博文本进行情感分析,可以过滤出对民航安全有威胁的微博,从而锁定有犯罪倾向的重点用户。目前,中文文本情感分析方法主要有基于语义理解和基于传统机器学习两类方法。但这两种方法应用于微博情感分析中主要存在以下问题:①基于语义理解的方法用构建基准褒贬词语库和定义表达规则的方法对语料进行模式匹配,对于表达方式复杂、不规则的微博文本处理上有很大的局限性。②基于传统机器学习的方法需要复杂的特征工程,耗费大量的人工成本。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供一种基于深度学习的民航微博安保舆情情感分析方法。为了达到上述目的,本专利技术提供的基于深度学习的民航安保舆情情感分析方法包括按顺序进行的下列步骤:( ...
【技术保护点】
1.一种基于深度学习的民航微博安保舆情情感分析方法,其特征在于:其包括按顺序进行的下列步骤:(1)从网上大量的文本中筛选出与民航安保舆情相关的关键词,由这些关键词和对应的威胁强度值构成关键词库;(2)将根据民航安保舆情关键词筛选出的微博文本以及对应的标签作为训练集,对训练集中的微博文本进行预处理操作和分词处理;每一微博文本由至少一个微博子句构成,标签分为威胁和无威胁两种;(3)对由步骤(2)得到的分词后的微博文本进行词向量训练,得到词向量模型;(4)构建卷积神经网络和长短时记忆网络的组合深度学习网络,并在组合深度学习网络后加入全连接层以及softmax层,共同构成组合深度学习分类模型;(5)将训练集中分词后的微博文本输入到步骤(3)得到的词向量模型中,将微博文本向量化;(6)将步骤(5)中获得的向量化后的微博文本以及对应的标签输入到组合深度学习模型中,训练组合深度学习分类模型的组合深度学习网络中的有无威胁文本分类器并保存(7)将待分析的微博文本按照步骤(2)的方法进行预处理操作和分词处理后,通过步骤(3)获得的词向量模型进行微博文本向量化,然后输入到上述步骤(6)获得的有无威胁分类器中 ...
【技术特征摘要】
1.一种基于深度学习的民航微博安保舆情情感分析方法,其特征在于:其包括按顺序进行的下列步骤:(1)从网上大量的文本中筛选出与民航安保舆情相关的关键词,由这些关键词和对应的威胁强度值构成关键词库;(2)将根据民航安保舆情关键词筛选出的微博文本以及对应的标签作为训练集,对训练集中的微博文本进行预处理操作和分词处理;每一微博文本由至少一个微博子句构成,标签分为威胁和无威胁两种;(3)对由步骤(2)得到的分词后的微博文本进行词向量训练,得到词向量模型;(4)构建卷积神经网络和长短时记忆网络的组合深度学习网络,并在组合深度学习网络后加入全连接层以及softmax层,共同构成组合深度学习分类模型;(5)将训练集中分词后的微博文本输入到步骤(3)得到的词向量模型中,将微博文本向量化;(6)将步骤(5)中获得的向量化后的微博文本以及对应的标签输入到组合深度学习模型中,训练组合深度学习分类模型的组合深度学习网络中的有无威胁文本分类器并保存(7)将待分析的微博文本按照步骤(2)的方法进行预处理操作和分词处理后,通过步骤(3)获得的词向量模型进行微博文本向量化,然后输入到上述步骤(6)获得的有无威胁分类器中进行分类,最后针对判定为有威胁的微博文本进一步根据情感词典和规则计算威胁度分值;(8)根据上述威胁度分值判定威胁度等级。2.根据权利要求1所述的基于深度学习的民航微博舆情情感分析方法,其特征在于:在步骤(1)中,所述的关键词分为地点词语和行为词语两类;其中行为词语有两个属性,第一个属性为威胁强度值,用于衡量该词语对民航安保的威胁程度,度量标准分为1,3,5,7,9五种强度;第二个属性为词语类型,词语类型分为两类,一类为直接型,即只出现这一个词语就能判定为对民航有威胁;另一类为间接型,即必须与地点词语同时出现才能判定出是否对民航安保有威胁。3.根据权利要求1所述的基于深度学习的民航微博舆情情感分析方法,其特征在于:在步骤(2)中,所述的对训练集中的微博文本进行预处理操作和分词处理的方法是:预处理操作包括去除微博文本中的网页链接、转发、回复微博时的用户昵称、特殊字符在内的噪声信息,保留无威胁微博文本中的话题标签,作为区分包含民航舆情关键词的微博文本是主观威胁言论还是新闻话题的重要特征;然后利用分词工具对上述预处理后的微博文本进行分词。4.根据权利要求1所述的基于深度学习的民航微博舆情情感分析方法,其特征在于:在步骤(3)中,所述...
【专利技术属性】
技术研发人员:韩萍,孙佳慧,方澄,贾云飞,
申请(专利权)人:中国民航大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。