当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于深度信念网络的单分类微博谣言检测模型制造技术

技术编号:20820099 阅读:32 留言:0更新日期:2019-04-10 05:58
本发明专利技术公开了一种基于深度信念网络的单分类微博谣言检测模型,进行谣言的甄别,其特征在于:包括下述具体步骤:1)进行关键用户节点选择,在微博中选择有影响力和有代表性的用户;2)数据的爬取及数据预处理;3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维;4)采用SVDD算法进行谣言甄别;该模型基于关键用户的数据收集模式,并将深度信念网络微博谣言检测之中,通过深度信念网络的非线性变换与层层递进实现了特征提取与降维,采用单分类问题中的支持向量数据描述用于谣言的识别。

【技术实现步骤摘要】
一种基于深度信念网络的单分类微博谣言检测模型
本专利技术涉及数据抓取、谣言甄别技术等领域,具体的说,是一种基于深度信念网络的单分类微博谣言检测模型。
技术介绍
微博作为一种新兴的网络交流工具,其用户数在中国正以惊人的速度不断地增长。与传统媒体相比,微博具有无法比拟的信息传播速度,用户可以实时在网络中了解其关注的各种信息。同时,作为一种全新的自媒体——用户既是信息的消费者,也是信息的生产者,任何用户都可以借助微博发布信息,用户的言论自由在微博网络中得到极大的发挥,因此受到大量网民的追捧。根据新浪微博中心发布的《2017微博用户发展报告》:2017年,微博月活跃用户将达到3.76亿人,每天发送的信息量将超过200亿条。包括中央电视台、人民日报在内的传统媒体亦纷纷在微博中开设账号与网民实现信息的交互,微博已经成为人们获取信息的一个重要来源。人们在充分享受微博带来的信息大餐的同时,也不得不面对其带来的一个严重问题:微博中充斥着大量的网络谣言。导致这一问题泛滥的根源恰恰是微博倍受青睐的特性——自媒体性。微博允许任意用户在网络中自由地发布信息,但却对其用户发布的信息缺乏有效的监管措施,不怀好意的用户利用这一管理上的不足在微博中大肆发布不实信息。由于信息在微博中的传播速度与广度的裂变传递以及经过多次传递产生级联效应,微博中的谣言问题带来的破坏性远远高于传统“口口相传”方式,“谣言倒逼真相”的案例在微博中时有发生。微博中的谣言问题对社会的和谐和稳定已经构成了极大的威胁,严重时甚至会影响到国家和地区的安全。因此,如何有效地识别出微博中流传的谣言信息已经刻不容缓。为了及时准确地检测微博网络中传播的谣言,业界与学术界进行了努力与尝试,谣言识别的方法主要包含两类:第一类是以“微博辟谣”和“微博不实举报平台”为代表的人工谣言检测方法,这种方法的优点是谣言准确率高,缺点在于谣言检测耗费大量的人力成本,而且检测时间延迟大,人工检测方法没法有效地应对微博网络中每天数以亿计的数据量;第二种方法是机器学习的检测方法,这种方法将谣言检测问题看作有监督学习问题中的二元分类,通过特征提取,训练模型和样本分类来完成谣言的鉴别,这种方法相较于人工方法,较好的克服成本高、速度慢的缺陷。但是现有方法在进行谣言检测时具有如下局限性:第一,是用于谣言检测器训练的数据集收集问题,因为新浪微博的安全保护,无法系统全面的收集微博网络中的数据。现有的方法采用的是所谓的“滚雪球”的方式收集,即在用户的好友圈中收集数据,这样获得数据具有较大同质性,无法有效的反映信息在微博传播的真实情况;第二,现有的方法将谣言识别问题看作是监督学习中的二元分类问题,因此用于谣言检测器的数据集需要进行标注,现有的方法大多采用人工标注的方式,手工的方式耗费了大量的人力,同时标注的质量也依赖于标注者知识背景与经验;第三,因为微博网络中的正常信息远远多于传播的谣言信息,因此构造出的数据集是一种严重不均衡的数据集,集合中正常微博的数量远远多于谣言微博,导致训练的结果偏向识别正常微博,而无法有效地识别谣言微博。
技术实现思路
本专利技术的目的在于提供一种基于深度信念网络的单分类微博谣言检测模型,该模型基于关键用户的数据收集模式,并将深度信念网络微博谣言检测之中,通过深度信念网络的非线性变换与层层递进实现了特征提取与降维,并采用单分类问题中的支持向量数据描述用于谣言的识别,克服了现有方法在面对不均衡数据时,训练结果偏向多数数据问题,也避免了由于训练模型需要人工标注数据,导致数据标注质量依赖于标注者的经验与知识背景问题。本专利技术通过下述技术方案实现:一种基于深度信念网络的单分类微博谣言检测模型,进行谣言的甄别,包括下述具体步骤:1)进行关键用户节点选择:在微博中选择有影响力和有代表性的用户;2)数据的爬取及数据预处理;其中,数据的爬取,采用分布式爬虫,完成数据收集,在该部分master节点用户从数据库中获取爬取任务的相关信息,并产生任务分发给slave节点,slave节点负责具体的微博数据的爬取;数据预处理,对获得的数据按照信息数据类型进行对应的数据预处理;3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维;4)采用SVDD算法进行谣言甄别。进一步的为更好地实现本专利技术,特别采用下述设置方式:在进行关键用户节点选择时,采用基于类别与K-medoids算法对用户的相关性进行筛选关键用户节点。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述步骤1)包括以下具体步骤:1.1)从指定类别频道获取用户,并将获得的用户信息产生一个新的集合;1.2)从新的集合中随机选择部分用户,作为中心点,形成中心点用户;1.3)从步骤1.1)中产生的用户集合中除去步骤1.2)中用到的中心点用户,依次计算剩余用户与选出的中心点用户的距离,并将每个剩余用户到中心点用户点距离最短的中心作为自己所属的类中心;1.4)将步骤1.3)得到的中心用户数据应用到整个用户集合数据集合,计算每一个用户和中心点的距离,选择距离最小的中心点类别作为该用户的类别;1.5)重复步骤1.3),步骤1.4),直到类中心不在改变;1.6)将中心点用户作为关键用户节点存储到数据库。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述步骤2)中,数据的爬取采用分布式爬虫实现,且采用下述任意方式进行数据收集:2.1)根据设定的时间区间,一次性爬取指定时间段内监控点用户的历史微博内容;2.2)基于时间窗口的数据方式,根据设定的时间窗口,在窗口时间内持续的获取监控用户的微博数据。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述步骤2)中,数据预处理通过下述方式实现:如果收集到的数据是字符,通过映射函数,将字符特征映射到一个离散的空间;如果收集到的数据是连续型的数值,通过min-max标准化对数据进行处理,min-max处理方法如公式2所示:其中fi为特征的取值,fmin为该特征的最小取值,fmax为该特征的最大取值;如果收集到的数据为离散型,则采用dummyencoding对原始特征进行编码。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述步骤3)实现特征提取与降维时,采用CD-1算法实现,包括下述具体步骤:3.1)设定模型参数初值:w=0,a=0,b=0;3.2)从训练数据集合D选择一个变量x,利用公式p(hj=1|v)=sigmod(bj+∑iwijvi)计算p(hcount=1|D),从p(hcount=1|D)获得隐藏变量hcount;3.3)对于同样的训练数据集合D,利用公式p(vi=1|h)=sigmod(ai+∑iwijhi)计算p(vcount=1|h),根据计算结果重构训练数据集合D′;3.4)根据步骤3.2)得到的h,对于隐藏层利用公式p(hj=1|v)=sigmod(bj+∑iwijvi)计算p(hcount′=1|D′);3.5)更新模型的参数,有:3.6)重复步骤3.2)-步骤3.5),直到训练数据集合D中全部变量都被遍历。进一步的为更好地实现本专利技术,特别采用下述设置方式:所述深度信念网络利用逐层训练的方法进行训练,具体为:从下往上对RBM进行训练,当下层的RBM训练好后,将上层的RBM堆叠到训练好的RBM的上层,本文档来自技高网
...

【技术保护点】
1.一种基于深度信念网络的单分类微博谣言检测模型,进行谣言的甄别,其特征在于:包括下述具体步骤:1)进行关键用户节点选择,在微博中选择有影响力和有代表性的用户;2)数据的爬取及数据预处理;3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维;4)采用SVDD算法进行谣言甄别。

【技术特征摘要】
1.一种基于深度信念网络的单分类微博谣言检测模型,进行谣言的甄别,其特征在于:包括下述具体步骤:1)进行关键用户节点选择,在微博中选择有影响力和有代表性的用户;2)数据的爬取及数据预处理;3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维;4)采用SVDD算法进行谣言甄别。2.根据权利要求1所述的一种基于深度信念网络的单分类微博谣言检测模型,其特征在于:在进行关键用户节点选择时,采用基于类别与K-medoids算法对用户的相关性进行筛选关键用户节点。3.根据权利要求1或2所述的一种基于深度信念网络的单分类微博谣言检测模型,其特征在于:所述步骤1)包括以下具体步骤:1.1)从指定类别频道获取用户,并将获得的用户信息产生一个新的集合;1.2)从新的集合中随机选择部分用户,作为中心点,形成中心点用户;1.3)从步骤1.1)中产生的用户集合中除去步骤1.2)中用到的中心点用户,依次计算剩余用户与选出的中心点用户的距离,并将每个剩余用户到中心点用户点距离最短的中心作为自己所属的类中心;1.4)将步骤1.3)得到的中心用户数据应用到整个用户集合数据集合,计算每一个用户和中心点的距离,选择距离最小的中心点类别作为该用户的类别;1.5)重复步骤1.3),步骤1.4),直到类中心不在改变;1.6)将中心点用户作为关键用户节点存储到数据库。4.根据权利要求1或2所述的一种基于深度信念网络的单分类微博谣言检测模型,其特征在于:所述步骤2)中,数据的爬取采用分布式爬虫实现,且采用下述任意方式进行数据收集:2.1)根据设定的时间区间,一次性爬取指定时间段内监控点用户的历史微博内容;2.2)基于时间窗口的数据方式,根据设定的时间窗口,在窗口时间内持续的获取监控用户的微博数据。5.根据权利要求1或2所述的一种基于深度信念网络的单分类微博谣言检测模型,其特征在于:所述步骤2)中,数据预处理通过下述方式实现:如果收集到的数据是字符,通过映射函数,将字符特征映射到一个离散的空间;如果收集到的数据是连续型的数值,通过min-max标准化对数据进行处理,min-max处理方法如公式2所示:其中fi为特征的取值,fmin为该特征的最小取值,fmax为该特征的最大取值;如果收集到的数据为离散型,则采用dummyencoding对原始特征进行编码。6.根据权利要求1所述的一种基于深度信念网络的单分类微博谣言检测模型,其特征在于:所述步骤3)实现特征提取与降维时,采用CD-1算法实现,包括下述具体步骤:3.1)设定模型参数初值:w=0,a=0,b=0;3.2)从训练数据集合D选择一个变量x,...

【专利技术属性】
技术研发人员:梁刚许春杨进杨文太陈俊仁高玉君王印玺黄华雪
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1