一种识别垃圾文本的方法和装置制造方法及图纸

技术编号：10375951 阅读：159 留言：0更新日期：2014-08-28 18:20

本申请公开了一种识别垃圾文本的方法和装置。该方法包括：预先采用签名算法计算垃圾文本的签名，在样本库中存储垃圾文本的签名信息，采用所述签名算法计算待处理文本的签名，确定待处理文本的签名与样本库中存储的签名信息之间的差异程度；根据所述差异程度识别待处理文本是否为垃圾文本；其中，采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。应用本发明专利技术能够提高垃圾文本的召回率。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别垃圾文本的方法和装置
本申请涉及信息处理
，尤其涉及一种识别垃圾文本的方法和装置。
技术介绍
在互联网络中常常充斥着各种垃圾文本，例如垃圾评论信息等，如何识别出这些垃圾文本是目前急需解决的一个技术问题。目前，一般根据敏感词库来识别垃圾文本，具体地:预先根据已经确定的垃圾文本建立敏感词库，对于待处理文本，判断该待处理文本中是否出现了敏感词库中的词，如果是，则将该待处理文本识别为垃圾文本，否则，将该待处理文本识别为非垃圾文本。可见，目前根据敏感词库来识别垃圾文本的方法存在以下的缺陷:有些垃圾文本会通过不断变换关键词，来避免与敏感词库中的敏感词相同，例如，当某用户发送了垃圾广告评论“各种化妆品，尽在我的淘宝店”时，敏感词库编辑人员将“淘宝店”加入到敏感词库中，然而，当用户将评论内容改成“各种化妆品，尽在我的淘宝商店”，由于“淘宝商店”并不在敏感词库中，因此将导致敏感词库失效，即将本应为垃圾文本的“各种化妆品，尽在我的淘宝商店”识别为了非垃圾文本。因此，目前识别垃圾文本的方法的垃圾文本召回率较低。
技术实现思路
本申请提供了一种识别垃圾文本的方法...

【技术保护点】
一种识别垃圾文本的方法，其特征在于，该方法包括：预先采用签名算法计算垃圾文本的签名，在样本库中存储垃圾文本的签名信息，采用所述签名算法计算待处理文本的签名，确定待处理文本的签名与样本库中存储的签名信息之间的差异程度；根据所述差异程度识别待处理文本是否为垃圾文本；其中，采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。

【技术特征摘要】
1.一种识别垃圾文本的方法，其特征在于，该方法包括: 预先采用签名算法计算垃圾文本的签名，在样本库中存储垃圾文本的签名信息，采用所述签名算法计算待处理文本的签名，确定待处理文本的签名与样本库中存储的签名信息之间的差异程度；根据所述差异程度识别待处理文本是否为垃圾文本；其中，采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。2.根据权利要求1所述的方法，其特征在于，所述确定待处理文本的签名与样本库中存储的签名信息之间的差异程度包括: 将待处理文本的签名和样本库中存储的签名信息转换为位数相同的二进制数，计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离，将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度；其中，所述汉明距离是两个等长字符串对应位置的字符不同的个数。3.根据权利要求2所述的方法，其特征在于，根据所述差异程度识别待处理文本是否为垃圾文本包括: 在由待处理文本中字符串的签名转换得到的二进制数与由样本库中存储的签名转换得到的二进制数之间的汉明距离小于预定值时，将所述待处理文本识别为垃圾文本。4.根据权利要求3所述的方法，其特征在于，将所述待处理文本识别为垃圾文本之后，该方法还包括: 将识别为垃圾文本的待处理文本的签名信息存储在所述样本库中。5.根据权利要求2至4任一权利要求所述的方法，其特征在于，所述位数相同的二进制数为32位二进制数或64位二进制数。6.根据...

【专利技术属性】
技术研发人员：张湘念，
申请(专利权)人：腾讯科技北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人