一种基于深度信念网络的单分类微博谣言检测模型制造技术

技术编号：20820099 阅读：32 留言：0更新日期：2019-04-10 05:58

本发明专利技术公开了一种基于深度信念网络的单分类微博谣言检测模型，进行谣言的甄别，其特征在于：包括下述具体步骤：1）进行关键用户节点选择，在微博中选择有影响力和有代表性的用户；2）数据的爬取及数据预处理；3）采用深度信念网络将步骤2）预处理后的数据进行特征提取与降维；4）采用SVDD算法进行谣言甄别；该模型基于关键用户的数据收集模式，并将深度信念网络微博谣言检测之中，通过深度信念网络的非线性变换与层层递进实现了特征提取与降维，采用单分类问题中的支持向量数据描述用于谣言的识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度信念网络的单分类微博谣言检测模型
本专利技术涉及数据抓取、谣言甄别技术等领域，具体的说，是一种基于深度信念网络的单分类微博谣言检测模型。
技术介绍
微博作为一种新兴的网络交流工具，其用户数在中国正以惊人的速度不断地增长。与传统媒体相比，微博具有无法比拟的信息传播速度，用户可以实时在网络中了解其关注的各种信息。同时，作为一种全新的自媒体——用户既是信息的消费者，也是信息的生产者，任何用户都可以借助微博发布信息，用户的言论自由在微博网络中得到极大的发挥，因此受到大量网民的追捧。根据新浪微博中心发布的《2017微博用户发展报告》：2017年，微博月活跃用户将达到3.76亿人，每天发送的信息量将超过200亿条。包括中央电视台、人民日报在内的传统媒体亦纷纷在微博中开设账号与网民实现信息的交互，微博已经成为人们获取信息的一个重要来源。人们在充分享受微博带来的信息大餐的同时，也不得不面对其带来的一个严重问题：微博中充斥着大量的网络谣言。导致这一问题泛滥的根源恰恰是微博倍受青睐的特性——自媒体性。微博允许任意用户在网络中自由地发布信息，但却对其用户发布的信息缺乏有效的监管措施，不怀好意的用户利用这一管理上的不足在微博中大肆发布不实信息。由于信息在微博中的传播速度与广度的裂变传递以及经过多次传递产生级联效应，微博中的谣言问题带来的破坏性远远高于传统“口口相传”方式，“谣言倒逼真相”的案例在微博中时有发生。微博中的谣言问题对社会的和谐和稳定已经构成了极大的威胁，严重时甚至会影响到国家和地区的安全。因此，如何有效地识别出微博中流传的谣言信息已经刻不容缓。为了及时准确...

【技术保护点】
1.一种基于深度信念网络的单分类微博谣言检测模型，进行谣言的甄别，其特征在于：包括下述具体步骤：1)进行关键用户节点选择，在微博中选择有影响力和有代表性的用户；2)数据的爬取及数据预处理；3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维；4)采用SVDD算法进行谣言甄别。

【技术特征摘要】
1.一种基于深度信念网络的单分类微博谣言检测模型，进行谣言的甄别，其特征在于：包括下述具体步骤：1)进行关键用户节点选择，在微博中选择有影响力和有代表性的用户；2)数据的爬取及数据预处理；3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维；4)采用SVDD算法进行谣言甄别。2.根据权利要求1所述的一种基于深度信念网络的单分类微博谣言检测模型，其特征在于：在进行关键用户节点选择时，采用基于类别与K-medoids算法对用户的相关性进行筛选关键用户节点。3.根据权利要求1或2所述的一种基于深度信念网络的单分类微博谣言检测模型，其特征在于：所述步骤1)包括以下具体步骤：1.1)从指定类别频道获取用户，并将获得的用户信息产生一个新的集合；1.2)从新的集合中随机选择部分用户，作为中心点，形成中心点用户；1.3)从步骤1.1)中产生的用户集合中除去步骤1.2)中用到的中心点用户，依次计算剩余用户与选出的中心点用户的距离，并将每个剩余用户到中心点用户点距离最短的中心作为自己所属的类中心；1.4)将步骤1.3)得到的中心用户数据应用到整个用户集合数据集合，计算每一个用户和中心点的距离，选择距离最小的中心点类别作为该用户的类别；1.5)重复步骤1.3)，步骤1.4)，直到类中心不在改变；1.6)将中心点用户作为关键用户节点存储到数据库。4.根据权利要求1或2所述的一种基于深度信念网络的单分类微博谣言检测模型，其特征在于：所述步骤2)中，数据的爬取采用分布式爬虫实现，且采用下述任意方式进行数据收集：2.1)根据设定的时间区间，一次性爬取指定时间段内监控点用户的历史微博内容；2.2)基于时间窗口的数据方式，根据设定的时间窗口，在窗口时间内持续的获取监控用户的微博数据。5.根据权利要求1或2所述的一种基于深度信念网络的单分类微博谣言检测模型，其特征在于：所述步骤2)中，数据预处理通过下述方式实现：如果收集到的数据是字符，通过映射函数，将字符特征映射到一个离散的空间；如果收集到的数据是连续型的数值，通过min-max标准化对数据进行处理，min-max处理方法如公式2所示：其中fi为特征的取值，fmin为该特征的最小取值，fmax为该特征的最大取值；如果收集到的数据为离散型，则采用dummyencoding对原始特征进行编码。6.根据权利要求1所述的一种基于深度信念网络的单分类微博谣言检测模型，其特征在于：所述步骤3)实现特征提取与降维时，采用CD-1算法实现，包括下述具体步骤：3.1)设定模型参数初值：w＝0，a＝0，b＝0；3.2)从训练数据集合D选择一个变量x，...

【专利技术属性】
技术研发人员：梁刚，许春，杨进，杨文太，陈俊仁，高玉君，王印玺，黄华雪，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人