一种基于地域与情感特征的微博谣言集成识别方法及装置制造方法及图纸

技术编号:23764907 阅读:34 留言:0更新日期:2020-04-11 19:19
本发明专利技术请求保护一种基于地域与情感特征的微博谣言集成识别方法及装置,属于网络舆情领域,该装置包括以下模块:预处理装置:用于计算机对采集到的互联网微博数据进行清洗、打标;特征筛选模块:用于对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;谣言识别模型构造模块:用于采用Stacking方法作为集成学习的组合策略,构造谣言识别模型;判断模块:用于输入待检测数据,得到每条信息为谣言的可能性大小。

An integrated recognition method and device of micro blog rumor based on regional and emotional characteristics

【技术实现步骤摘要】
一种基于地域与情感特征的微博谣言集成识别方法及装置
本专利技术属于网络舆情领域,具体涉及一种基于地域与情感特征的微博谣言集成识别方法。
技术介绍
互联网技术的飞速发展,为人与人之间的交流提供了更加快捷的方式。一方面,网络空间中的信息量不断增长;另一方面,信息的传播也随着各种网络平台的兴起而加速。在这个以网络为主要信息传播媒介的时代下,鱼龙混杂的信息充斥着网络空间,而谣言信息的传播可能带来的影响小到对个人名誉、隐私等的侵犯,大到对公共秩序造成混乱,引发群体性事件,导致国家的繁荣稳定受到危害。因此,对网络谣言的管控不仅关乎网民个人的利益,也与营造清朗的网络空间密不可分。目前,国内外在网络谣言识别方面的研究工作,一部分聚焦于提取谣言与非谣言信息之间具有显著差异的特征集上,另一部分则侧重于分类模型的构建。基于模型构建的谣言识别方法不需要提取各种复杂的特征,但是需要大量数据支撑,而在数据量较少的情况下,着重于特征选择的研究方法更适用于谣言的识别。通过结合传播学中的5W模式,构造出地域相关性、情感一致性和用户可信度三个新特征,并利用卡方检验本文档来自技高网...

【技术保护点】
1.一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,包括以下步骤:/n(A)计算机对采集到的互联网微博数据进行清洗、打标;/n(B)对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;/n(C)采用堆叠方法作为集成学习的组合策略,构造谣言识别模型;/n(D)输入待检测数据,得到每条信息为谣言的可能性大小。/n

【技术特征摘要】
1.一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,包括以下步骤:
(A)计算机对采集到的互联网微博数据进行清洗、打标;
(B)对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;
(C)采用堆叠方法作为集成学习的组合策略,构造谣言识别模型;
(D)输入待检测数据,得到每条信息为谣言的可能性大小。


2.根据权利要求1所述的一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,所述用户可信度特征的具体构造步骤包括:
根据用户是否认证fverified、基本信息是否完整fInfoIntegrity以及用户影响力finfluence(ui)计算得到用户可信度,其计算公式如下:
fcredibility(ui)=fverified+finfluence+fInfoIntegrity;
fverified表示用户是否认证,取值为0或1;fInfoIntegrity表示用户的基本信息是否完整,基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息,取值为0或1;finfluence表示用户影响力。


3.根据权利要求2所述的一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,所述用户影响力的计算步骤包括:
根据用户的粉丝数、互相关注数计算得到用户影响力finfluence(ui),公式如下:



其中,ui表示发布微博i的用户,Cbifollower表示用户ui的互相关注数,Cfollower表示用户ui的粉丝数。


4.根据权利要求3所述的一种基于地域与情感特征的微博谣言集成识别方法,其特征在于,所述步骤(B)的情感一致性特征的具体构造步骤包括:
分别对每条微博内容及其相关评论进行分词处理,去停用词,得到微博内容的词向量集合mi表示第i条微博的词向量集合,表示该微博所分得的词语;
相对应的微博下每条评论的词向量集合表示第i条微博下的第j条评论的词向量集合,表示该条评论所分得的词语;
分别将微博内容的词向量集合mi和相对应的微博下每条评论的词向量集合与大连理工大学的情感词汇本体库中的情感词进行词语匹配以得到每条信息中积极情感词与消极情感词的个数,得到该条消息或评论的情感倾向公式如下:
S=Cpos-Cneg

表示当前词集合的情感倾向,Cpos表示积极情感词数,Cneg表示消极情感词数,由此可得:




表示该词向量集合最终的情感倾向,1表示积极情感倾向,-1表示消极情感倾向,0表示中立;计算微博mi下每条评论的情感倾向后利用如下公式计算评论的总体倾向:



最后,对比微博及其对应的评论的情感倾向,得到情感一致性特征。


5.根据权利要求1所述的一种基于...

【专利技术属性】
技术研发人员:吴渝曾艳李红波
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1