一种识别垃圾文本的方法和装置制造方法及图纸

技术编号:10375951 阅读:127 留言:0更新日期:2014-08-28 18:20
本申请公开了一种识别垃圾文本的方法和装置。该方法包括:预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息,采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度;根据所述差异程度识别待处理文本是否为垃圾文本;其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。应用本发明专利技术能够提高垃圾文本的召回率。

【技术实现步骤摘要】
一种识别垃圾文本的方法和装置
本申请涉及信息处理
,尤其涉及一种识别垃圾文本的方法和装置。
技术介绍
在互联网络中常常充斥着各种垃圾文本,例如垃圾评论信息等,如何识别出这些垃圾文本是目前急需解决的一个技术问题。目前,一般根据敏感词库来识别垃圾文本,具体地:预先根据已经确定的垃圾文本建立敏感词库,对于待处理文本,判断该待处理文本中是否出现了敏感词库中的词,如果是,则将该待处理文本识别为垃圾文本,否则,将该待处理文本识别为非垃圾文本。可见,目前根据敏感词库来识别垃圾文本的方法存在以下的缺陷:有些垃圾文本会通过不断变换关键词,来避免与敏感词库中的敏感词相同,例如,当某用户发送了垃圾广告评论“各种化妆品,尽在我的淘宝店”时,敏感词库编辑人员将“淘宝店”加入到敏感词库中,然而,当用户将评论内容改成“各种化妆品,尽在我的淘宝商店”,由于“淘宝商店”并不在敏感词库中,因此将导致敏感词库失效,即将本应为垃圾文本的“各种化妆品,尽在我的淘宝商店”识别为了非垃圾文本。因此,目前识别垃圾文本的方法的垃圾文本召回率较低。
技术实现思路
本申请提供了一种识别垃圾文本的方法和装置,能够提高垃圾文本的召回率。一种识别垃圾文本的方法,该方法包括:预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息,采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度;根据所述差异程度识别待处理文本是否为垃圾文本;其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度息。一种识别垃圾文本的装置,该装置包括样本库模块、差异程度确定模块和识别模块;所述样本库模块,用于存储预先采用签名算法计算出的垃圾文本的签名信息;所述差异程度确定模块,用于采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库模块中存储的签名信息之间的差异程度;所述识别模块,用于根据所述差异程度识别待处理文本是否为垃圾文本;其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度息。由上述技术方案可见,本专利技术通过在样本库中存储垃圾文本的签名,计算待处理文本的签名,而且计算垃圾文本的签名和计算待处理文本的签名所采用的签名算法针对不同文本计算出的签名能够反映不同文本之间的差异程度信息,因此,通过确定待处理文本的签名与样本库中存储的签名信息之间的差异程度,根据所述差异程度能够识别待处理文本是否为垃圾文本。由于本专利技术根据待处理文本的签名与垃圾文本的签名之间的差异程度来识别待处理文本是否是垃圾文本,因此,即便待处理文本与垃圾文本不完全一致,只要两者的差异程度满足预定的条件,本专利技术也能够将所述待处理文本识别为垃圾文本,因此能够大大提高垃圾文本的召回率。【附图说明】图1是本专利技术提供的识别垃圾文本的方法流程图。图2是本专利技术提供的识别垃圾文本的装置结构图。【具体实施方式】图1是本专利技术提供的识别垃圾文本的方法流程图。如图1所示,该方法包括:步骤101,预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息。步骤102,采用所述签名算法计算待处理文本的签名。其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度息。步骤103,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度。步骤104,根据所述差异程度识别待处理文本是否为垃圾文本。可见,由于图1所示方法根据待处理文本的签名与垃圾文本的签名之间的差异程度来识别待处理文本是否是垃圾文本,因此,即便待处理文本与垃圾文本不完全一致,只要两者的差异程度满足预定的条件,图1所示方法也能够将所述待处理文本识别为垃圾文本,因此能够大大提高垃圾文本的召回率。[0031 ] 其中,所采用的签名算法可以是SMHASH签名算法,也可以是MINHASH签名算法。其中,具体可以通过计算待处理文本的签名与垃圾文本的签名之间的汉明距离来确定待处理文本的签名与垃圾文本的签名之间的差异程度。其中,所述汉明距离是两个等长字符串对应位置的字符不同的个数。比如,字符串A=”A1B2C3D4”与字符串B= “A2B1C3D4”的汉明距离为:2,所以汉明距离可以衡量字符串之间的相似度,即汉明距离越小,字符串相似度越高。因此,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度具体可以包括:将待处理文本的签名和样本库中存储的签名信息转换为位数相同的二进制数,计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离,将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。具体地,可以在将垃圾文本的签名信息存储在样本库中时,将垃圾文本的签名转换为目标位数的二进制数,在样本库中直接存储所述二进制数,在对待处理文本进行处理时,先采用计算垃圾文本签名的签名算法计算待处理文本的签名,然后将待处理文本的签名转换为目标位数的二进制数,由于样本库中存储的签名信息就是目标位数的二进制数,因此,可以将由待处理文本的签名转换得到的二进制数与样本库中存储的二进制数直接进行逐条比较(一个垃圾文本的签名转换得到的二进制数为一条二进制数),从而计算待处理文本的签名与垃圾文本的签名信息之间的汉明距离,将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。也可以将由签名算法计算得到的垃圾文本签名直接存储在样本库中,在对待处理文本进行处理时,先采用计算垃圾文本签名的签名算法你计算待处理文本的签名,然后将待处理文本的签名转换为目标位数的二进制数,将样本库中的签名也转换为目标位数的二进制数,然后计算由待处理文本的签名转换得到的目标位数二进制数与由垃圾文本的签名转换得到的目标位数二进制数的汉明距离,将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。其中,所述目标位数可以是32位,也可以是64位。在根据所述差异程度识别待处理文本是否为垃圾文本时,如果由待处理文本中字符串的签名转换得到的二进制数与由样本库中存储的签名转换得到的二进制数之间的汉明距离小于预定值,则可以将所述待处理文本识别为垃圾文本。当然,也可以在所述汉明距离的基础上,进一步结合其他条件判断待处理文本是否为垃圾文本。 为了提高本专利技术提供的识别垃圾文本的方法适应垃圾文本变化的能力,本专利技术还提出,在将待处理文本识别为垃圾文本之后,可以将识别为垃圾文本的待处理文本的签名信息存储在所述样本库中,从而实现样本库的自动更新,进而能够随着垃圾文本的变化而识别新的垃圾文本。下面举一个具体的例子,对本专利技术提供的识别垃圾文本的方法进行示例性介绍。在该例子中,预先对历史垃圾评论进行人工分拣,并计算分拣出的垃圾评论内容的签名,根据所述签名形成一个垃圾评论的样本库,即在样本库中存储SM(Al),SM(A2)…SIM (Ai) -SIM (An),其中,SM (Al)、SM (A2)...SM (An)为采用 32 位二进制数存储的垃圾评论内容Al、A2...An的SMHASH值。当某用户发送了一条评论B,首先计算出该评论的SMHASH值:SM(B),然后将SM(B)与垃圾评论的样本库中的SMHASH值逐条比本文档来自技高网...

【技术保护点】
一种识别垃圾文本的方法,其特征在于,该方法包括:预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息,采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度;根据所述差异程度识别待处理文本是否为垃圾文本;其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。

【技术特征摘要】
1.一种识别垃圾文本的方法,其特征在于,该方法包括: 预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息, 采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度; 根据所述差异程度识别待处理文本是否为垃圾文本; 其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。2.根据权利要求1所述的方法,其特征在于,所述确定待处理文本的签名与样本库中存储的签名信息之间的差异程度包括: 将待处理文本的签名和样本库中存储的签名信息转换为位数相同的二进制数,计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离,将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度; 其中,所述汉明距离是两个等长字符串对应位置的字符不同的个数。3.根据权利要求2所述的方法,其特征在于,根据所述差异程度识别待处理文本是否为垃圾文本包括: 在由待处理文本中字符串的签名转换得到的二进制数与由样本库中存储的签名转换得到的二进制数之间的汉明距离小于预定值时,将所述待处理文本识别为垃圾文本。4.根据权利要求3所述的方法,其特征在于,将所述待处理文本识别为垃圾文本之后,该方法还包括: 将识别为垃圾文本的待处理文本的签名信息存储在所述样本库中。5.根据权利要求2至4任一权利要求所述的方法,其特征在于,所述位数相同的二进制数为32位二进制数或64位二进制数。6.根据...

【专利技术属性】
技术研发人员:张湘念
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1