The embodiment of this specification discloses an information filtering method and device. The scheme includes: acquiring the registration request; the registration request includes the information of the account to be registered; determining the characters contained in the information of the account to be registered; judging whether the information of the account to be registered is a spam account according to the characters; refusing to register the information of the account to be registered when the information of the account to be registered is a spam account.
【技术实现步骤摘要】
一种信息过滤方法及装置
本申请涉及计算机
,尤其涉及一种信息过滤方法及装置。
技术介绍
随着信息技术的发展,网站已经可以为用户提供非常丰富的网络服务,用户通常需要在网站上注册自己的账户信息,以便获得更全面的服务。目前,存在由机器自动生成大量垃圾账户的情况,这些垃圾账户并不会被正常使用,通常是被恶意利用以获得更多的网络服务的资源。大量垃圾账户的存在不仅占用网络服务商的资源,而且过多的垃圾账户被恶意利用后,严重影响其他用户所获取的网络服务,导致网络服务资源的分配不均。现有技术中,对于垃圾账户的过滤通常采用地址信息过滤和网络行为过滤两种方式,其中,地址信息过滤的主要方法为:当监测到同一介质访问控制(MediaAccessControl,MAC)地址或互联网协议(InternetProtocol,IP)地址短时间内注册大量账户时,则判定这些账户为自动生成的垃圾账户,从而对这些垃圾账户进行过滤。而网络行为过滤的主要实现方式为:在已注册的账户进行登录后,针对该账户的网络行为进行监测,根据监测到的该账户的网络行为判断该账户是否为垃圾账户,并进行相应过滤。但是,一旦修改了注册账户信息的设备的MAC地址或IP地址,地址信息过滤的方法就将失效,因此,地址信息过滤的方法漏检率较高。而网络行为过滤的方法在执行时,由于垃圾账户的注册毕竟已经完成,而且对账号的网络行为进行监测也需要消耗较多的资源来完成,因此网络行为过滤的方法的效率较低。
技术实现思路
本申请实施例提供一种信息过滤方法及装置,用以解决对账户信息的过滤准确性较差且效率较低的问题。本申请实施例提供的一种信息过滤方法,包括 ...
【技术保护点】
1.一种信息过滤方法,包括:获取注册请求;所述注册请求中包括待注册账户信息;确定所述待注册账户信息中包含的字符;根据所述字符判断所述待注册账户信息是否为垃圾账户;当所述待注册账户信息为垃圾账户时,拒绝注册所述待注册账户信息。
【技术特征摘要】
1.一种信息过滤方法,包括:获取注册请求;所述注册请求中包括待注册账户信息;确定所述待注册账户信息中包含的字符;根据所述字符判断所述待注册账户信息是否为垃圾账户;当所述待注册账户信息为垃圾账户时,拒绝注册所述待注册账户信息。2.如权利要求1所述的方法,所述根据所述字符判断所述待注册账户信息是否为垃圾账户,具体包括:从所述字符中确定出指定类型字符;根据所述指定类型字符确定所述待注册账户信息为垃圾账户的可能性表征值;确定所述垃圾账户的可能性表征值的最小阈值;当所述可能性表征值大于所述最小阈值时,确定所述待注册账户信息为垃圾账户。3.如权利要求2所述的方法,所述根据所述指定类型字符确定所述待注册账户信息为垃圾账户的可能性表征值,具体包括:将所述第一字符按照预设规则进行分词,得到分词结果;所述分词结果包括至少一个判断词;根据所述判断词确定所述待注册账户信息为垃圾账户的可能性表征值。4.如权利要求2所述方法,所述确定所述垃圾账户的可能性表征值的最小阈值,具体包括:获取预设数量的已注册成功的各个垃圾账户的可能性表征值;确定所述已注册成功的各个垃圾账户的可能性表征值中的最小值;将所述最小值作为所述垃圾账户的可能性的最小阈值。5.如权利要求4所述的方法,所述将所述第一字符按照预设规则进行分词,具体包括:确定每个判断词的预设字符串长度;根据所述预设字符串长度,从所述待注册账户信息包含的各字符中,选择出连续的、满足预设字符串长度的字符,将选择出的字符构成的字符串作为得到的判断词。6.如权利要求5所述的方法,所述确定每个判断词的预设字符串长度,具体包括:确定预设数量的已注册成功的正常账户的账户信息所包含的字符串的平均长度;将所述平均长度作为所述预设字符串长度。7.如权利要求3所述的方法,所述根据所述判断词确定所述待注册账户信息为垃圾账户的可能性表征值,具体包括:针对任意一个判断词,确定所述任意一个判断词在预先确定的各正常账户信息中出现的次数;根据所述次数,确定所述待注册账户信息为垃圾账户的可能性表征值,其中,所述可能性表征值与所述次数成反比。8.如权利要求3所述的方法,所述根据所述判断词确定所述待注册账户信息为垃圾账户的可能性表征值,具体包括:确定所述待注册账户信息中包含的字符数量以及每个判断词在正常用户的账户信息中的出现次数;根据所述字符数量以及所述出现次数确定所述待注册账户信息为垃圾账户的可能性表征值;其中,所述可能性表征值与所述待注册账户信息中包含的字符的数量成正比。9.如权利要求7所述的方法,所述根据针对每个判断词确定的次数,确定所述待注册账户信息为垃圾账户的可能性表征值,具体包括:采用公式确定所述待注册账户信息为垃圾账户的可能性表征值;其中,S为可能性表征值;tfi为对所述待注册账户信息中包含的字符进行分词后,得到的第i个判断词在预先确定的各正常账户信息中出现的次数,i=1、2……k,k为对所述待注册账户信息中包含的字符进行分词后,得到的判断词的数量。10.如权利要求8所述的方法,所述根据所述字符数量以及所述出现次数确定所述待注册账户信息为垃圾账户的可能性表征值,具体包括:采用公式确定所述待注册账户信息为垃圾账户的可能性表征值;其中,S为可能性表征值;tfi为对所述待注册账户信息中包含的字符进行分词后,得到的第i个判断词在预先确定的各正常账户信息中出现的次数,i=1、2……k,k为对所述待注册账户信息中包含的字符进行分词后,得到的判断词的数量;a为预设的长度惩罚系数,b为预设的短度补偿值,a、b为大于0的常数;x、y为预设的大于0的常数;n...
【专利技术属性】
技术研发人员:林述民,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。