基于传播结构的微博谣言识别方法和系统技术方案

技术编号：14479714 阅读：59 留言：0更新日期：2017-01-25 12:23

本发明专利技术提供了一种基于传播结构的微博谣言识别系统和方法，其通过支持向量机的机器学习的方法，以微博的信息特征、用户特征以及传播特征的特征数据为数据，用随机游走法计算图核函数，再加上经典的径向基核函数，从而建立支持向量机模型，以用于识别谣言；每条微博用一棵传播树和一个特征向量表示，其中，传播树用以表示传播特征中的传播结构，特征向量的各维为信息特征、用户特征、非传播结构的传播特征；在识别微博时，利用模型建立模块已建立好的支持向量机模型，对待识别微博进行分类，根据分类结果从而判断待识别微博是否为谣言。本发明专利技术通过对微博信息传播结构的比较，可大幅提高鉴别微博谣言的准确率和召回率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据库技术，具体地，涉及基于传播结构的微博谣言识别方法和系统。
技术介绍
经对现有技术进行检索，发现如下相关检索结果。相关检索结果1：申请(专利)号：201210586904.8，名称：一种鉴定网络谣言的方法和装置该专利文献适用于互联网通信领域，提供了一种鉴定网络谣言的方法，所述方法包括：对数据库中的网络信息进行分析并提取特征；用机器学习法建模，生成打分函数；利用打分函数对网络信息进行鉴定。该专利文献对数据库中的网络信息进行分析并提取特征，通过分析网络信息的种类(主题)、网络信息的发布者、网络信息的传播者、网络信息的受众、网络信息的重要性、网络信息的模糊性、网络信息的反常度等特征，利用机器学习法建模，生成打分函数，从而对网络信息进行谣言鉴定。但其中，发布者、传播者、受众三个特征高度依赖于数据库的规模。若待鉴定的谣言所涉及到的用户不包含在分析用的数据库中，则无法使用这三个特征。另外，网络信息的反常度分析需要人工参与，效率低下，无法应用于大规模自动鉴别谣言。技术要点比较：1.该专利文献在用机器学习法建模时，主要考虑的谣言特征包括网络信息的种类(主题)、网络信息的发布者、网络信息的传播者、网络信息的受众、网络信息的重要性、网络信息的模糊性、网络信息的反常度；而本专利技术中考虑的谣言特征包括网络信息的时间跨度、网络信息所包含的情感倾向、发布网络信息的客户端、网络用户是否经过大V认证、网络用户的性别、网络用户的粉丝数、网络用户的种类等。2.该专利文献并未考虑发布信息在传播过程中的特征；而本专利技术试图从网络信息的包含有传播结构的传播特征(转发数、转发...
基于传播结构的微博谣言识别方法和系统

【技术保护点】
一种基于传播结构的微博谣言识别系统，其特征在于，包括如下装置：数据采集模块：用于收集和提取微博的信息特征、用户特征以及传播特征；模型建立模块：用于通过支持向量机的机器学习的方法，以微博的信息特征、用户特征以及传播特征的特征数据为数据建立模型，以用于识别谣言；其中，建立模型时所使用的微博数据为数据库中的微博，即已经提前人工标记好是否为谣言的微博；每条微博用一棵传播树和一个特征向量表示，其中，传播树用以表示传播特征中的传播结构，将信息特征、用户特征、非传播结构的传播特征作为特征向量的各维；模型识别模块：用于利用模型建立模块已建立好的模型，分析待识别微博，从而判断待识别微博是否为谣言；其中，待识别微博的信息特征、用户特征和传播特征来自于数据采集模块。

【技术特征摘要】
1.一种基于传播结构的微博谣言识别系统，其特征在于，包括如下装置：数据采集模块：用于收集和提取微博的信息特征、用户特征以及传播特征；模型建立模块：用于通过支持向量机的机器学习的方法，以微博的信息特征、用户特征以及传播特征的特征数据为数据建立模型，以用于识别谣言；其中，建立模型时所使用的微博数据为数据库中的微博，即已经提前人工标记好是否为谣言的微博；每条微博用一棵传播树和一个特征向量表示，其中，传播树用以表示传播特征中的传播结构，将信息特征、用户特征、非传播结构的传播特征作为特征向量的各维；模型识别模块：用于利用模型建立模块已建立好的模型，分析待识别微博，从而判断待识别微博是否为谣言；其中，待识别微博的信息特征、用户特征和传播特征来自于数据采集模块。2.根据权利要求1所述的基于传播结构的微博谣言识别系统，其特征在于：所述信息特征包括：微博是否包含多媒体、微博所包含的情感倾向、微博是否包含URL链接、微博的发布时间相距用户的注册时间、微博发布的客户端、微博的话题种类、微博通过搜索引擎返回的结果数；所述用户特征包括：发微博用户是否经过大V认证、发微博用户是否含有个人描述、发微博用户的性别、发微博用户的账号注册地点、发微博用户的粉丝数、发微博用户的关注数、发微博用户的发微博数、发微博用户的注册时间、发微博用户的用户种类；所述传播特征包括：微博的传播结构、微博的转发数、微博的评论数、他人转发微博时的情感倾向、他人转发微博时候所使用的表情、转发微博的时间分数。3.根据权利要求1所述的基于传播结构的微博谣言识别系统，其特征在于，模型建立模块得到一个分类器模型，该分类器模型用于接收对应于一条微博的一棵传播树和一个特征向量作为输入，并给出该微博是否为谣言作为输出；模型识别模块在识别一条待识别微博是否为谣言时，将该微博构建成一个特征向量和一棵传播树，再将该微博的特征向量和传播树代入到已建立的分类器模型中计算相似性，从而得到该微博是否为谣言。4.根据权利要求1所述的基于传播结构的微博谣言识别系统，其特征在于，传播树中的结点均表示一个网络用户；根结...

【专利技术属性】
技术研发人员：朱其立，吴克，杨松，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人