一种拦截垃圾信息的方法和装置制造方法及图纸

技术编号:11031835 阅读:58 留言:0更新日期:2015-02-11 17:50
本发明专利技术公开了一种拦截垃圾信息的方法和装置,属于互联网通信领域。所述方法包括:接收待拦截的信息;将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的阿拉伯数字字符;将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。所述装置包括:接收模块、转换模块、第一确定模块和拦截模块。本发明专利技术不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信息。

【技术实现步骤摘要】
一种拦截垃圾信息的方法和装置
本专利技术涉及互联网通信领域,特别涉及一种拦截垃圾信息的方法和装置。
技术介绍
随着互联网通信技术的快速发展,我们的生活当中出现了各种各类的垃圾信息,比如诈骗信息和非法广告等,并且好多用户因为该类垃圾信息而上当受骗,所以拦截该类垃圾信息是避免用户上当受骗的当务之急。目前,拦截垃圾信息的方法具体为:技术人员向信息拦截系统输入垃圾信息样本,假如该垃圾信息样本为“中央电视台《非常6+1》:恭喜您被评选为非常6+1幸运观众,获得二等奖,奖品为三星笔记本Q40+48000元奖金,请登录www.cctv3yx.cn领取,验证码为:【1006】。客服:400-6162-066”。信息拦截系统提取该垃圾信息样本的样本特征包括“非常6+1”、“幸运观众”、“二等奖”和“奖品”,将提取的样本特征存储在特征库中。信息拦截系统接收待拦截的信息,并提取待拦截的信息中的特征包括“非常6+1”、“幸运观众”、“二等奖”和“礼品”,计算提取的特征与特征库中包括的每个样本特征之间的相似度,选择与提取的特征之间的相似度大于预设数值的样本特征包括“非常6+1”、“幸运观众”和“二等奖”,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:由于特征库中存储的样本特征是根据每个样本信息中描述的文字提取出来的,当垃圾信息发布者发现该垃圾信息被拦截时,垃圾信息发布者会马上将该垃圾信息中的文字进行替换,快速地改变该垃圾信息的特征,使信息拦截系统无法识别并拦截该垃圾信息。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种拦截垃圾信息的方法和装置。所述技术方案如下:一方面,提供了一种拦截垃圾信息的方法,所述方法包括:接收待拦截的信息;将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的阿拉伯数字字符;将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。另一方面,提供了一种拦截垃圾信息的装置,所述装置包括:接收模块,用于接收待拦截的信息;转换模块,用于将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的阿拉伯数字字符;第一确定模块,用于将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;拦截模块,用于如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。在本专利技术实施例中,由于垃圾信息发布者改变垃圾信息的文字描述比较容易且成本较小,而改变垃圾信息的联系方式花费的时间较长且成本较高,所以在样本特征指纹库中存储垃圾信息发布者的联系方式,当拦截垃圾信息时,提取待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符确定为待拦截的信息的特征指纹,如果样本特征指纹库中存在待拦截的信息的特征指纹时,则确定该待拦截的信息为垃圾信息,可以直接拦截该垃圾信息,如此,不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信息。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的一种拦截垃圾信息的方法流程图;图2是本专利技术实施例二提供的一种拦截垃圾信息的方法流程图;图3是本专利技术实施例三提供的一种拦截垃圾信息的装置结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例一本专利技术实施例提供了一种拦截垃圾信息的方法,参见图1,该方法包括:步骤101:接收待拦截的信息;步骤102:将待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,预设格式的英文字母为单字节的小写英文字母,预设格式的数字字符为单字节的阿拉伯数字字符;步骤103:将转换后的待拦截的信息中的英文字母和数字字符确定为待拦截的信息的特征指纹;步骤104:如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息。其中,将待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,包括:获取待拦截的信息中的非预设格式的英文字母和数字字符;根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符。进一步地,获取待拦截的信息中的非预设格式的英文字母和数字字符,包括:获取待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母;获取待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。其中,将转换后的待拦截的信息中的英文字母和数字字符确定为待拦截的信息的特征指纹,包括:提取转换后的待拦截的信息中的英文字母和数字字符;将提取的英文字母和数字字符组成一个字符序列,并将该字符序列确定为待拦截的信息的特征指纹。其中,如果已存储的样本特征指纹库中存在待拦截的信息的特征指纹,则将待拦截的信息确定为垃圾信息并拦截该垃圾信息之前,还包括:如果样本特征指纹库中存在与待拦截的信息的特征指纹相同的字符串或者存在待拦截的信息的特征指纹的子串,则确定样本特征指纹库中存在待拦截的信息的特征指纹。进一步地,该方法还包括:接收管理员输入的非预设格式的字符和其对应的预设格式的字符,将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。进一步地,该方法还包括:接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库中。在本专利技术实施例中,由于垃圾信息发布者改变垃圾信息的文字描述比较容易且成本较小,而改变垃圾信息的联系方式花费的时间较长且成本较高,所以在样本特征指纹库中存储垃圾信息发布者的联系方式,当拦截垃圾信息时,提取待拦截的信息中的英文字母和数字字符,将提取的英文字母和数字字符确定为待拦截的信息的特征指纹,如果样本特征指纹库中存在待拦截的信息的特征指纹时,则确定该待拦截的信息为垃圾信息,可以直接拦截该垃圾信息,如此,不管垃圾信息中的文字描述如何变化,都可以直接拦截该垃圾信息。实施例二本专利技术实施例提供了一种拦截垃圾信息的方法,参见图2,该方法包括:步骤201:业务系统接收待拦截的信息,并将待拦截的信息发送给信息拦截系统;具体地,业务系统接收待拦截的信息,通过拦截接口将待拦截的信息发送给信息拦截系统。其中,业务系统发送给信息拦截系统的待拦截的信息都是统一编码的,例如,将待拦截的信息都统一用GBK进行编码。步骤202:信息拦截系统接收待拦截的信息,获取该本文档来自技高网...
一种拦截垃圾信息的方法和装置

【技术保护点】
一种拦截垃圾信息的方法,其特征在于,所述方法包括:接收待拦截的信息;将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的阿拉伯数字字符;将转换后的所述待拦截的信息中的英文字母和数字字符确定为所述待拦截的信息的特征指纹;如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。

【技术特征摘要】
1.一种拦截垃圾信息的方法,其特征在于,所述方法包括:接收待拦截的信息;将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,所述预设格式的英文字母为单字节的小写英文字母,所述预设格式的数字字符为单字节的阿拉伯数字字符,所述待拦截的信息中除所述非预设格式的英文字母和数字字符之外还包括其他的字符;提取转换后的所述待拦截的信息中的英文字母和数字字符,从转换后的所述待拦截的信息的第一个字符开始,逐个字符的进行过滤,保留转换后的所述待拦截的信息中的单字节的英文字母和数字字符,将保留下的单字节的英文字母和数字字符依次进行串接,组成字符序列,并将所述字符序列确定为所述待拦截的信息的特征指纹;如果样本特征指纹库中存在与所述待拦截的信息的特征指纹相同的字符串或者存在所述待拦截的信息的特征指纹的子串,则确定所述样本特征指纹库中存在所述待拦截的信息的特征指纹;如果已存储的样本特征指纹库中存在所述待拦截的信息的特征指纹,则将所述待拦截的信息确定为垃圾信息并拦截所述垃圾信息。2.根据权利要求1所述的方法,其特征在于,所述将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符,包括:获取所述待拦截的信息中的非预设格式的英文字母和数字字符;根据已存储的非预设格式的字符和预设格式的字符之间的对应关系,将获取的非预设格式的英文字母和数字字符转换为预设格式的英文字母和数字字符。3.如权利要求2所述的方法,其特征在于,所述获取所述待拦截的信息中的非预设格式的英文字母和数字字符,包括:获取所述待拦截的信息中的以形近字表示的字母、以多字节表示的字母和/或大写的英文字母;获取所述待拦截的信息中的以形近字表示的数字字符、以汉字表示的数字字符和/或以多字节表示的数字字符。4.如权利要求1所述的方法,其特征在于,所述方法还包括:接收管理员输入的非预设格式的字符和其对应的预设格式的字符,将接收的非预设格式的字符和其对应的预设格式的字符存储在非预设格式的字符和预设格式的字符之间的对应关系中。5.如权利要求1所述的方法,其特征在于,所述方法还包括:接收管理员输入的样本特征指纹,将接收的样本特征指纹存储在样本特征指纹库中。6.一种拦截垃圾信息的装置,其特征在于,所述装置包括:接收模块,用于接收待拦截的信息;转换模块,用于将所述待拦截的信息中的非预设格式的英文字母和数字字符转换为预设...

【专利技术属性】
技术研发人员:刘严
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1