基于传播结构的微博谣言识别方法和系统技术方案

技术编号:14479714 阅读:59 留言:0更新日期:2017-01-25 12:23
本发明专利技术提供了一种基于传播结构的微博谣言识别系统和方法,其通过支持向量机的机器学习的方法,以微博的信息特征、用户特征以及传播特征的特征数据为数据,用随机游走法计算图核函数,再加上经典的径向基核函数,从而建立支持向量机模型,以用于识别谣言;每条微博用一棵传播树和一个特征向量表示,其中,传播树用以表示传播特征中的传播结构,特征向量的各维为信息特征、用户特征、非传播结构的传播特征;在识别微博时,利用模型建立模块已建立好的支持向量机模型,对待识别微博进行分类,根据分类结果从而判断待识别微博是否为谣言。本发明专利技术通过对微博信息传播结构的比较,可大幅提高鉴别微博谣言的准确率和召回率。

【技术实现步骤摘要】

本专利技术涉及数据库技术,具体地,涉及基于传播结构的微博谣言识别方法和系统
技术介绍
经对现有技术进行检索,发现如下相关检索结果。相关检索结果1:申请(专利)号:201210586904.8,名称:一种鉴定网络谣言的方法和装置该专利文献适用于互联网通信领域,提供了一种鉴定网络谣言的方法,所述方法包括:对数据库中的网络信息进行分析并提取特征;用机器学习法建模,生成打分函数;利用打分函数对网络信息进行鉴定。该专利文献对数据库中的网络信息进行分析并提取特征,通过分析网络信息的种类(主题)、网络信息的发布者、网络信息的传播者、网络信息的受众、网络信息的重要性、网络信息的模糊性、网络信息的反常度等特征,利用机器学习法建模,生成打分函数,从而对网络信息进行谣言鉴定。但其中,发布者、传播者、受众三个特征高度依赖于数据库的规模。若待鉴定的谣言所涉及到的用户不包含在分析用的数据库中,则无法使用这三个特征。另外,网络信息的反常度分析需要人工参与,效率低下,无法应用于大规模自动鉴别谣言。技术要点比较:1.该专利文献在用机器学习法建模时,主要考虑的谣言特征包括网络信息的种类(主题)、网络信息的发布者、网络信息的传播者、网络信息的受众、网络信息的重要性、网络信息的模糊性、网络信息的反常度;而本专利技术中考虑的谣言特征包括网络信息的时间跨度、网络信息所包含的情感倾向、发布网络信息的客户端、网络用户是否经过大V认证、网络用户的性别、网络用户的粉丝数、网络用户的种类等。2.该专利文献并未考虑发布信息在传播过程中的特征;而本专利技术试图从网络信息的包含有传播结构的传播特征(转发数、转发包含的情感倾向)等角度进一步鉴别谣言。相关检索结果2:申请(专利)号:201210350085.7,名称:虚假网络舆情识别方法该专利文献公开了一种虚假网络舆情识别方法,用于解决现有的互联网虚假网络舆情识别方法需要处理大量网络信息的技术问题。技术方案是首先采用行为分析技术,对网络论坛信息传播行为进行建模分析,检测出网络热点事件和舆情。然后依据网络水军行为特征,对网络舆情进行多个层面关联性分析,包括空间关联性、时间关联性、主题关联性以及情感关联性等,识别出可能存在的虚假网络舆情。将所处理的网络信息量减少到了最低限度。该专利文献首先建立用户-用户、用户-事件、事件-事件网络模型,通过计算中心度和威望度来找出网络热点事件。其次通过分析网络热点事件之间的四种关联性,来鉴别其是否虚假。该方法只能分析检测出的网络热点事件的真实性,无法针对特定信息进行鉴别,且计算结果无法重复利用,计算量大。技术要点比较:1.该专利文献主要分析检测出的网络热点事件的ip地址、发帖时间、主题内容及情感倾向的关联性,无法针对特定事件进行鉴别,且计算结果无法重复利用,计算量大;而本专利技术则通过分析已知谣言的信息特征、用户特征及传播特征,从而鉴别新的信息是否为谣言,可针对特定事件进行鉴别,且计算结果可重复利用,计算量小。相关检索结果3:申请(专利)号:201310186271.6,名称:一种微博伪造信息的检测方法该专利文献涉及一种微博伪造信息的检测方法,方法是在微博发布和管理部门设立微博检测系统,设有信息采集模块、特征分析模块、特征库、检测预警模块和响应处理模块,系统通过信息采集模块采集并保存被检测的微博帐号所发布的微博数据;由特征分析模块分析该帐号发布的微博静态、动态及传播特征,建立特征库并定期更新;由检测预警模块检测当前采集的该帐号的微博信息,若当前采集的微博静态、动态及传播特征与特征库的特征差异超出了预定的报警阈值时则自动报警,表明出现了微博帐号盗用和伪造信息的发布;报警后由响应处理模块采取相应的措施处理。该专利文献主要通过分析热门微博的静态特征、动态特征和传播特征来鉴定微博信息是否伪造,主要特征包括常用字集合、转发数、转发速度等。该专利考虑的微博特征较为浅显简单,且通过人工设定各特征权重,容易导致鉴别结果不准确,准确率和召回率不高。技术要点比较1.该专利文献主要考虑微博信息的一些简单特征,如常用字组合、微博转发数、微博转发速度等;而本专利技术倾向于深入分析微博信息的复杂特征,例如微博内容的主题、微博转发的传播结构等。2.该专利文献的特征权重和打分函数由系统预先人为设定;而本专利技术通过机器学习建模,自动设定特征权重和打分函数。具体地说,本专利技术采用支持向量机(SVM)的监督式学习模型,在给出特征集合及数据训练集后,监督式学习模型将根据算法来设定各特征的权重,以期在数据训练集获得最佳的分类效果。这样的好处在于不需要人为干预,监督式学习模型可根据数据来自动调整特征权重。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于传播结构的微博谣言识别方法和系统。本专利技术要解决的技术问题体现在以下几点:(1)所有信息抓取和特征分析均保证自动化,无需人工判断或打分,以提高鉴别效率,用于大规模微博谣言自动鉴别。(2)保证方法可鉴别特定微博信息;保证计算结果可重复利用,降低计算量。(3)深入考虑微博信息的特征,例如信息特征、用户特征和传播特征,通过深层次的特征分析来鉴别微博谣言,力图提高准确率和召回率。根据本专利技术提供的一种基于传播结构的微博谣言识别系统,包括如下装置:数据采集模块:用于收集和提取微博的信息特征、用户特征以及传播特征;模型建立模块:用于通过支持向量机的机器学习的方法,以微博的信息特征、用户特征以及传播特征的特征数据为数据建立模型,以用于识别谣言;其中,建立模型时所使用的微博数据为数据库中的微博,即已经提前人工标记好是否为谣言的微博;每条微博用一棵传播树和一个特征向量表示,其中,传播树用以表示传播特征中的传播结构,将信息特征、用户特征、非传播结构的传播特征作为特征向量的各维;模型识别模块:用于利用模型建立模块已建立好的模型,分析待识别微博,从而判断待识别微博是否为谣言;其中,待识别微博的信息特征、用户特征和传播特征来自于数据采集模块。优选地,所述信息特征包括:微博是否包含多媒体、微博所包含的情感倾向、微博是否包含URL链接、微博的发布时间相距用户的注册时间、微博发布的客户端、微博的话题种类、微博通过搜索引擎返回的结果数;所述用户特征包括:发微博用户是否经过大V认证、发微博用户是否含有个人描述、发微博用户的性别、发微博用户的账号注册地点、发微博用户的粉丝数、发微博用户的关注数、发微博用户的发微博数、发微博用户的注册时间、发微博用户的用户种类;所述传播特征包括:微博的传播结构、微博的转发数、微博的评论数、他人转发微博时的情感倾向、他人转发微博时候所使用的表情、转发微博的时间分数。优选地,模型建立模块得到一个分类器模型,该分类器模型用于接收对应于一条微博的一棵传播树和一个特征向量作为输入,并给出该微博是否为谣言作为输出;模型识别模块在识别一条待识别微博是否为谣言时,将该微博构建成一个特征向量和一棵传播树,再将该微博的特征向量和传播树代入到已建立的分类器模型中计算相似性,从而得到该微博是否为谣言。优选地,传播树中的结点均表示一个网络用户;根结点代表微博的发布者,传播树中的父子关系代表子结点表示的网络用户直接转发了父结点表示的网络用户的微博;传播树中的结点均标记为p或n;若一个网络用户的粉丝数除以该网络用本文档来自技高网
...
基于传播结构的微博谣言识别方法和系统

【技术保护点】
一种基于传播结构的微博谣言识别系统,其特征在于,包括如下装置:数据采集模块:用于收集和提取微博的信息特征、用户特征以及传播特征;模型建立模块:用于通过支持向量机的机器学习的方法,以微博的信息特征、用户特征以及传播特征的特征数据为数据建立模型,以用于识别谣言;其中,建立模型时所使用的微博数据为数据库中的微博,即已经提前人工标记好是否为谣言的微博;每条微博用一棵传播树和一个特征向量表示,其中,传播树用以表示传播特征中的传播结构,将信息特征、用户特征、非传播结构的传播特征作为特征向量的各维;模型识别模块:用于利用模型建立模块已建立好的模型,分析待识别微博,从而判断待识别微博是否为谣言;其中,待识别微博的信息特征、用户特征和传播特征来自于数据采集模块。

【技术特征摘要】
1.一种基于传播结构的微博谣言识别系统,其特征在于,包括如下装置:数据采集模块:用于收集和提取微博的信息特征、用户特征以及传播特征;模型建立模块:用于通过支持向量机的机器学习的方法,以微博的信息特征、用户特征以及传播特征的特征数据为数据建立模型,以用于识别谣言;其中,建立模型时所使用的微博数据为数据库中的微博,即已经提前人工标记好是否为谣言的微博;每条微博用一棵传播树和一个特征向量表示,其中,传播树用以表示传播特征中的传播结构,将信息特征、用户特征、非传播结构的传播特征作为特征向量的各维;模型识别模块:用于利用模型建立模块已建立好的模型,分析待识别微博,从而判断待识别微博是否为谣言;其中,待识别微博的信息特征、用户特征和传播特征来自于数据采集模块。2.根据权利要求1所述的基于传播结构的微博谣言识别系统,其特征在于:所述信息特征包括:微博是否包含多媒体、微博所包含的情感倾向、微博是否包含URL链接、微博的发布时间相距用户的注册时间、微博发布的客户端、微博的话题种类、微博通过搜索引擎返回的结果数;所述用户特征包括:发微博用户是否经过大V认证、发微博用户是否含有个人描述、发微博用户的性别、发微博用户的账号注册地点、发微博用户的粉丝数、发微博用户的关注数、发微博用户的发微博数、发微博用户的注册时间、发微博用户的用户种类;所述传播特征包括:微博的传播结构、微博的转发数、微博的评论数、他人转发微博时的情感倾向、他人转发微博时候所使用的表情、转发微博的时间分数。3.根据权利要求1所述的基于传播结构的微博谣言识别系统,其特征在于,模型建立模块得到一个分类器模型,该分类器模型用于接收对应于一条微博的一棵传播树和一个特征向量作为输入,并给出该微博是否为谣言作为输出;模型识别模块在识别一条待识别微博是否为谣言时,将该微博构建成一个特征向量和一棵传播树,再将该微博的特征向量和传播树代入到已建立的分类器模型中计算相似性,从而得到该微博是否为谣言。4.根据权利要求1所述的基于传播结构的微博谣言识别系统,其特征在于,传播树中的结点均表示一个网络用户;根结...

【专利技术属性】
技术研发人员:朱其立吴克杨松
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1