构建谣言数据库的方法、分析谣言数据的方法及电子设备技术

技术编号:20221701 阅读:38 留言:0更新日期:2019-01-28 20:13
本公开提供了一种构建谣言数据库的方法、分析谣言数据的方法及电子设备,构建谣言数据库的方法包括:获取文章的属性标记为谣言属性的文章;根据文章的谣言关键词确定文章的领域类别;对文章中包含谣言内容的部分进行谣言标识,其中,谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;将进行谣言标识后的文章按照领域类别保存至谣言数据平台的谣言数据库中。本公开实施例按照预设规则构建了谣言数据库,随着谣言数据库中的数据不断增加,谣言数据库的使用会变的更加广泛,普通用户可以基于构建好的谣言数据库进行检索、查询等多方面业务,对阻止谣言的传播具有较为明显的效果。

【技术实现步骤摘要】
构建谣言数据库的方法、分析谣言数据的方法及电子设备
本公开涉及互联网领域,特别涉及一种构建谣言数据库的方法、分析谣言数据的方法及电子设备。
技术介绍
随着互联网的兴起、移动电子设备的普及,信息传播的速度也变得越来越快。一方面为人们的生活带来便利,另一方面也会造成不良影响。如果传播的文章是谣言,则该谣言就会迅速传播,这些谣言严重影响了用户辨别是非的能力,有的谣言还可能会影响用户的正常生活,甚至导致不必要的危害。然而,现有技术中,谣言鉴定主要是专家鉴定,鉴定确定为谣言后再进行文章的删除,但限于审核人力成本,只能对热文做排查,处理效率比较低下。由于现有的审核制度导致谣言文章到处散播,缺乏一种谣言的汇总方式,导致普通用户在阅读文章时无处可以鉴定其阅读的文章是否是谣言。
技术实现思路
有鉴于此,本公开实施例提出了一种构建谣言数据库的方法、分析谣言数据的方法及电子设备,用以解决现有技术的如下问题:由于现有的审核制度导致谣言文章到处散播,缺乏一种谣言的汇总方式,导致普通用户在阅读文章时无处可以鉴定其阅读的文章是否是谣言。一方面,本公开实施例提出了一种构建谣言数据库的方法,包括:获取文章的属性标记为谣言属性的文章;根据所述文章的谣言关键词确定所述文章的领域类别;对所述文章中包含谣言内容的部分进行谣言标识,其中,所述谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;将进行谣言标识后的所述文章按照领域类别保存至谣言数据平台的谣言数据库中。可选的,根据所述文章的谣言关键词确定所述文章的领域类别,包括:按照所述文章的谣言关键词进行聚类处理或者分类处理,以确定所述文章的领域类别。另一方面,本公开实施例提出了一种分析谣言数据的方法,应用通过上述方法构建的谣言数据库,包括:接收对疑似谣言文章进行检索的请求;根据所述请求对所述疑似谣言文章进行谣言关键词提取;根据所述谣言关键词确定所述文章的领域类别;在谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章,并将所述达到预设概率的文章及其对应的谣言标识进行显示。可选的,在所述谣言关键词为多个的情况下,在所述谣言数据库中检索与所述谣言关键词匹配概率达到预设概率的文章,并将所述达到预设概率的文章及其对应的谣言标识进行显示,包括:在所述谣言数据库的所述领域类别对应的谣言文章中检索与第一谣言关键词匹配概率达到第一预设概率的文章;在所述达到第一预设概率的文章中检索与第二谣言关键词匹配概率达到第二预设概率的文章;将所述达到第二预设概率的文章及其对应的谣言标识进行显示。可选的,将所述达到预设概率的文章及其对应的谣言标识进行显示,包括:按照所述谣言关键词匹配概率由大到小的顺序依次显示谣言文章及其对应的谣言标识。可选的,根据所述谣言关键词在所述谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章之后,还包括:检测所述达到预设概率的文章的数量是否达到预设数量;在所述达到预设概率的文章的数量达到所述预设数量的情况下,确定所述疑似谣言文章为谣言文章,并将所述谣言文章的属性标记为谣言属性。可选的,将所述谣言文章的属性标记为谣言属性之后,还包括:按照预设规则在在谣言关键词中确定谣言判定基础词,并将所述谣言判定基础词添加至预设谣言判定基础词库中。另一方面,本公开实施例提出了一种构建谣言数据库的装置,包括:获取模块,用于获取文章的属性标记为谣言属性的文章;第一确定模块,用于根据所述文章的谣言关键词确定所述文章的领域类别;标识模块,用于对所述文章中包含谣言内容的部分进行谣言标识,其中,所述谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;保存模块,用于将进行谣言标识后的所述文章按照领域类别保存至谣言数据平台的谣言数据库中。另一方面,本公开实施例提出了一种分析谣言数据的装置,包括:接收模块,用于接收对疑似谣言文章进行检索的请求;提取模块,用于根据所述请求对所述疑似谣言文章进行谣言关键词提取;第二确定模块,用于根据所述谣言关键词确定所述文章的领域类别;检索模块,用于在谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章;显示模块,用于将所述达到预设概率的文章及其对应的谣言标识进行显示。可选的,根据所述谣言关键词在所述谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章之后,还包括:检测模块,用于检测所述达到预设概率的文章的数量是否达到预设数量;标记模块,用于在所述达到预设概率的文章的数量达到所述预设数量的情况下,确定所述疑似谣言文章为谣言文章,并将所述谣言文章的属性标记为谣言属性。另一方面,本公开实施例提出了一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述分析谣言数据的方法的步骤,或者,所述计算机程序被处理器执行时实现上述构建谣言数据库的方法的步骤。另一方面,本公开实施例提出了一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述分析谣言数据的方法的步骤,或者,所述处理器在执行所述存储器上的计算机程序时实现上述分析谣言数据的方法的步骤。本公开实施例按照预设规则构建了谣言数据库,随着谣言数据库中的数据不断增加,谣言数据库的使用会变的更加广泛,普通用户可以基于构建好的谣言数据库进行检索、查询等多方面业务,对阻止谣言的传播具有较为明显的效果。附图说明图1为本公开一实施例提供的构建谣言数据库的方法的流程图;图2为本公开另一实施例提供的分析谣言数据的方法的流程图;图3为本公开另一实施例提供的分析谣言数据的方法的流程图;图4为本公开另一实施例提供的构建谣言数据库的装置的结构示意图;图5为本公开另一实施例提供的分析谣言数据的装置的结构示意图;图6为本公开另一实施例提供的分析谣言数据的装置的结构示意图;图7为本公开另一实施例提供的电子设备的结构示意图。具体实施方式下面参照附图对本公开多个实施例进行说明。下面参照附图对本公开多个实施例进行说明。应当理解,此处所描述的具体实施例仅仅用以解释本公开,并不限定本公开。本公开一实施例提供了一种构建谣言数据库的方法,该方法的流程如图1所示,包括步骤S101至S104:S101,获取文章的属性标记为谣言属性的文章。当一篇文章确定为谣言文章时,通常会从其所在的阅读上下架,因此,本公开实施例将所有下架的谣言文章都进行汇总,并加以利用。S102,根据文章的谣言关键词确定文章的领域类别。对于每一篇文章,其都会存在关键词,谣言文章也不例外,因此,本公开实施例通过谣言文章对应的关键词来确定其所属的领域类别,进而为每一篇谣言文章进行一个类别确定,例如,健康类别、财务类别等。具体实现时,可以按照文章的谣言关键词进行聚类处理或者分类处理,以确定文章的领域类别。S103,对文章中包含谣言内容的部分进行谣言标识,其中,谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言。每一篇文章都分为标题和正文,有的谣言文章为了隐蔽谣言内容,通常会在文章中的某一些段落中记载一部分谣言,例如,在某一段落记载了本文档来自技高网...

【技术保护点】
1.一种构建谣言数据库的方法,其特征在于,包括:获取文章的属性标记为谣言属性的文章;根据所述文章的谣言关键词确定所述文章的领域类别;对所述文章中包含谣言内容的部分进行谣言标识,其中,所述谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;将进行谣言标识后的所述文章按照领域类别保存至谣言数据平台的谣言数据库中。

【技术特征摘要】
1.一种构建谣言数据库的方法,其特征在于,包括:获取文章的属性标记为谣言属性的文章;根据所述文章的谣言关键词确定所述文章的领域类别;对所述文章中包含谣言内容的部分进行谣言标识,其中,所述谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;将进行谣言标识后的所述文章按照领域类别保存至谣言数据平台的谣言数据库中。2.如权利要求1所述的方法,其特征在于,根据所述文章的谣言关键词确定所述文章的领域类别,包括:按照所述文章的谣言关键词进行聚类处理或者分类处理,以确定所述文章的领域类别。3.一种分析谣言数据的方法,应用通过权利要求1或2所述方法构建的谣言数据库,其特征在于,包括:接收对疑似谣言文章进行检索的请求;根据所述请求对所述疑似谣言文章进行谣言关键词提取;根据所述谣言关键词确定所述文章的领域类别;在谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章,并将所述达到预设概率的文章及其对应的谣言标识进行显示。4.如权利要求3所述的方法,其特征在于,在所述谣言关键词为多个的情况下,在所述谣言数据库中检索与所述谣言关键词匹配概率达到预设概率的文章,并将所述达到预设概率的文章及其对应的谣言标识进行显示,包括:在所述谣言数据库的所述领域类别对应的谣言文章中检索与第一谣言关键词匹配概率达到第一预设概率的文章;在所述达到第一预设概率的文章中检索与第二谣言关键词匹配概率达到第二预设概率的文章;将所述达到第二预设概率的文章及其对应的谣言标识进行显示。5.如权利要求3所述的方法,其特征在于,将所述达到预设概率的文章及其对应的谣言标识进行显示,包括:按照所述谣言关键词匹配概率由大到小的顺序依次显示谣言文章及其对应的谣言标识。6.如权利要求3至5中任一项所述的方法,其特征在于,根据所述谣言关键词在所述谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章之后,还包括:检测所述达到预设概率的文章的数量是否达到预设数量;在所述达到预设概率的文章的数量达到所述预设数量的情况下,确定所述疑似谣言文章为谣言文章,并将所述谣言文...

【专利技术属性】
技术研发人员:宝腾飞刘真崔蕊肖与
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1