删除谣言文章的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:20448779 阅读:28 留言:0更新日期:2019-02-27 02:54
本公开公开了一种删除谣言文章的方法、装置、存储介质及电子设备,方法包括:在接收到发布的新文章的情况下,检测谣言数据库中是否存在与新文章的关键词相似概率大于预设概率的文章;在存在相似概率大于预设概率的文章的情况下,将新文章与相似概率大于预设概率的文章作为预设语言模型的输入参数,通过预设语言模型得到新文章与相似概率大于预设概率的文章的匹配度;在匹配度大于预设匹配度的情况下,将新文章从用户平台中删除。本公开通过谣言数据库和预设语言模型来自动对发布的新文章进行谣言鉴定,双重确定方式能够更加客观和准确的鉴定谣言文章,节省了人力审核的过程,且不论是否为热文都可以进行筛查,处理范围较广,处理效率较高。

Methods, devices, storage media and electronic devices for deleting rumors

The present disclosure discloses a method, device, storage medium and electronic equipment for deleting rumor articles. The method includes: in the case of receiving a new article published, detecting whether there is an article in the rumor database whose keyword similarity probability is greater than the preset probability; and in the case of an article whose similarity probability is greater than the preset probability, increasing the probability of similarity between a new article and a preset article. As input parameters of presupposed language model, the matching degree between new articles and articles with similar probability greater than presupposed probability is obtained by presupposed language model. When the matching degree is greater than presupposed matching degree, the new articles are deleted from user platform. This publication uses rumor database and presupposed language model to automatically identify new articles published. The double-determination method can identify rumors more objectively and accurately, save the process of human auditing, and can be screened whether it is hot or not. The processing range is wide and the processing efficiency is high.

【技术实现步骤摘要】
删除谣言文章的方法、装置、存储介质及电子设备
本公开涉及互联网领域,特别涉及一种删除谣言文章的方法、装置、存储介质及电子设备。
技术介绍
随着互联网的兴起、移动设备的普及,信息传播的速度也变得越来越快。一方面为人们的生活带来便利,另一方面也会造成不良影响。如果传播的文章是谣言,则该谣言就会迅速传播,这些谣言严重影响了用户辨别是非的能力,有的谣言还可能会影响用户的正常生活,甚至导致不必要的危害。然而,现有技术中,谣言鉴定主要是专家鉴定,鉴定确定为谣言后再进行文章的删除,但限于审核人力成本,只能对热文做排查,处理效率比较低下。
技术实现思路
有鉴于此,本公开实施例提出了一种删除谣言文章的方法、装置、存储介质及电子设备,用以解决现有技术的如下问题:谣言鉴定主要是专家鉴定,鉴定确定为谣言后再进行文章的删除,但限于审核人力成本,只能对热文做排查,处理效率比较低下。一方面,本公开实施例提出了一种删除谣言文章的方法,包括:在接收到发布的新文章的情况下,检测谣言数据库中是否存在与所述新文章的关键词相似概率大于预设概率的文章;在存在相似概率大于预设概率的文章的情况下,将所述新文章与所述相似概率大于预设概率的文章作为预设语言模型的输入参数,通过所述预设语言模型得到所述新文章与所述相似概率大于预设概率的文章的匹配度;在所述匹配度大于预设匹配度的情况下,将所述新文章从用户平台中删除。可选的,所述方法还包括:将所述新文章的属性标记为谣言属性,并将所述新文章添加至所述谣言数据库中。可选的,所述将所述新文章的属性标记为谣言属性包括:识别所述新文章中各部分的内容,将所述新文章的标题和/或段落标记为谣言属性。可选的,检测谣言数据库中是否存在与所述新文章的关键词相似概率大于预设概率的文章,包括:对所述新文章进行分词处理,以提取所述新文章的关键词;根据所述关键词确定所述新文章的领域类别;在所述谣言数据库的所述领域类别对应的文章中检测是否存在与所述新文章的关键词相似概率大于预设概率的文章。可选的,所述预设语言模型的训练过程如下:获取谣言数据库中标记为谣言属性的文章和类似谣言文章,将所有获取到的文章作为正样本,其中,所述类似谣言文章为与谣言文章匹配度达到预设匹配度的文章;获取谣言数据库中标记为谣言属性的文章和非谣言文章,将所有获取到的文章作为负样本,其中,所述非谣言文章为与谣言文章匹配度小于预设匹配度的文章;使用所述正样本和所述负样本训练所述预设语言模型学习谣言文章和非谣言文章的匹配关系。另一方面,本公开实施例提出了一种删除谣言文章的装置,包括:检测模块,用于在接收到发布的新文章的情况下,检测谣言数据库中是否存在与所述新文章的关键词相似概率大于预设概率的文章;匹配模块,用于在存在相似概率大于预设概率的文章的情况下,将所述新文章与所述相似概率大于预设概率的文章作为预设语言模型的输入参数,通过所述预设语言模型得到所述新文章与所述相似概率大于预设概率的文章的匹配度;操作模块,用于在所述匹配度大于预设匹配度的情况下,将所述新文章从用户平台中删除。可选的,所述操作模块,还用于将所述新文章的属性标记为谣言属性,并将所述新文章添加至所述谣言数据库中。可选的,所述操作模块,具体用于:识别所述新文章中各部分的内容,将所述新文章的标题和/或段落标记为谣言属性。可选的,所述检测模块包括:分词单元,用于对所述新文章进行分词处理,以提取所述新文章的关键词;确定单元,用于根据所述关键词确定所述新文章的领域类别;检测单元,用于在所述谣言数据库的所述领域类别对应的文章中检测是否存在与所述新文章的关键词相似概率大于预设概率的文章。可选的,所述匹配模块,还用于按照如下过程训练所述预设语言模型:获取谣言数据库中标记为谣言属性的文章和类似谣言文章,将所有获取到的文章作为正样本,其中,所述类似谣言文章为与谣言文章匹配度达到预设匹配度的文章;获取谣言数据库中标记为谣言属性的文章和非谣言文章,将所有获取到的文章作为负样本,其中,所述非谣言文章为与谣言文章匹配度小于预设匹配度的文章;使用所述正样本和所述负样本训练所述预设语言模型学习谣言文章和非谣言文章的匹配关系。另一方面,本公开实施例提出了一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。另一方面,本公开实施例提出了一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述方法的步骤。本公开实施例通过谣言数据库和预设语言模型来自动对发布的新文章进行谣言鉴定,双重确定方式能够更加客观和准确的鉴定谣言文章,节省了人力审核的过程,且不论是否为热文都可以进行筛查,处理范围较广,处理效率较高。附图说明图1为本公开一实施例提供的删除谣言文章的方法的流程图;图2为本公开另一实施例提供的删除谣言文章的方法的流程图;图3为本公开另一实施例提供的删除谣言文章的装置的结构示意图;图4为本公开另一实施例提供的电子设备的结构示意图。具体实施方式下面参照附图对本公开多个实施例进行说明。下面参照附图对本公开多个实施例进行说明。应当理解,此处所描述的具体实施例仅仅用以解释本公开,并不限定本公开。本公开一实施例提供了一种删除谣言文章的方法,该方法的流程如图1所示,包括S101至S103:S101,在接收到发布的新文章的情况下,检测谣言数据库中是否存在与新文章的关键词相似概率大于预设概率的文章。本公开实施例在确定有新文章发布的情况下,就会对新文章进行比价,将其与谣言数据库中的文章进行匹配,根据新文章的关键词进行检索,以确定是否存在关键词相似概率大于预设概率的文章。其中,谣言数据库是一个存储了很多谣言文章的数据库,因此,使用其进行对比还是比较合理的,可以高概率的命中发布的文章为谣言文章的情况。S102,在存在相似概率大于预设概率的文章的情况下,将新文章与相似概率大于预设概率的文章作为预设语言模型的输入参数,通过预设语言模型得到新文章与相似概率大于预设概率的文章的匹配度。一旦发现与关键词相似概率大于预设概率的文章,则说明谣言库中的谣言文章和新发布的文章还是有一些相似度的,因此,将所有相似概率大于预设概率的文章和新文章均作为输入参数输入到预设语言模型中,来得到一个匹配度。如果相似概率大于预设概率的文章只有一篇,则算出的匹配度只有一个,则直接输出,但通常情况下,相似概率大于预设概率的文章会是多个,则每个相似概率大于预设概率的文章都要作为一次输入,和新文章进行分别匹配,最后将平均的匹配度作为输出。S103,在匹配度大于预设匹配度的情况下,将新文章从用户平台中删除。如果输出的匹配度大于预设的匹配度,则说明新文章的全部内容均和谣言数据库中的谣言文章较为相似,新文章为谣言的可能性较大,可以直接删除新文章,避免新文章的进一步传播。本公开实施例在发现新文章的情况下,立即通过谣言数据库进行相似性比较,当谣言数据库中存在相似概率大于预设概率的文章时,则通过预设语言模型来计算新文章和相似概率大于预设概率的文章的匹配度,一旦匹配度也超过预设匹配度,则新文章可以确定为谣言,直接下架删除。本实施例通过谣言数据库和预设语言模型来自动对发布的新文章进行谣言鉴定,双重确定方式能够更加客观和准确的鉴定谣言文章,节省本文档来自技高网...

【技术保护点】
1.一种删除谣言文章的方法,其特征在于,包括:在接收到发布的新文章的情况下,检测谣言数据库中是否存在与所述新文章的关键词相似概率大于预设概率的文章;在存在相似概率大于预设概率的文章的情况下,将所述新文章与所述相似概率大于预设概率的文章作为预设语言模型的输入参数,通过所述预设语言模型得到所述新文章与所述相似概率大于预设概率的文章的匹配度;在所述匹配度大于预设匹配度的情况下,将所述新文章从用户平台中删除。

【技术特征摘要】
1.一种删除谣言文章的方法,其特征在于,包括:在接收到发布的新文章的情况下,检测谣言数据库中是否存在与所述新文章的关键词相似概率大于预设概率的文章;在存在相似概率大于预设概率的文章的情况下,将所述新文章与所述相似概率大于预设概率的文章作为预设语言模型的输入参数,通过所述预设语言模型得到所述新文章与所述相似概率大于预设概率的文章的匹配度;在所述匹配度大于预设匹配度的情况下,将所述新文章从用户平台中删除。2.如权利要求1所述的方法,其特征在于,所述方法还包括:将所述新文章的属性标记为谣言属性,并将所述新文章添加至所述谣言数据库中。3.如权利要求2所述的方法,其特征在于,所述将所述新文章的属性标记为谣言属性包括:识别所述新文章中各部分的内容,将所述新文章的标题和/或段落标记为谣言属性。4.如权利要求1所述的方法,其特征在于,所述检测谣言数据库中是否存在与所述新文章的关键词相似概率大于预设概率的文章,包括:对所述新文章进行分词处理,以提取所述新文章的关键词;根据所述关键词确定所述新文章的领域类别;在所述谣言数据库的所述领域类别对应的文章中检测是否存在与所述新文章的关键词相似概率大于预设概率的文章。5.如权利要求1至4中任一项所述的方法,其特征在于,所述预设语言模型的训练过程如下:获取谣言数据库中标记为谣言属性的文章和类似谣言文章,将所有获取到的文章作为正样本,其中,所述类似谣言文章为与谣言文章匹配度达到预设匹配度的文章;获取谣言数据库中标记为谣言属性的文章和非谣言文章,将所有获取到的文章作为负样本,其中,所述非谣言文章为与谣言文章匹配度小于预设匹配度的文章;使用所述正样本和所述负样本训练所述预设语言模型学习谣言文章和非谣言文章的匹配关系。6.一种删除谣言文章的装置,其特征在于,包括:检测模块,用于在接收到发布的新文章的情况下,检测谣言数据库中是否存在与所述新文章的关键词相似概率大于预设概率的文章...

【专利技术属性】
技术研发人员:宝腾飞李建波刘真崔蕊
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1