一种信息过滤方法及装置制造方法及图纸

技术编号:20944478 阅读:29 留言:0更新日期:2019-04-24 02:23
本说明书实施例公开了一种信息过滤方法及装置。方案包括:获取注册请求;所述注册请求中包括待注册账户信息;确定所述待注册账户信息中包含的字符;根据所述字符判断所述待注册账户信息是否为垃圾账户;当所述待注册账户信息为垃圾账户时,拒绝注册所述待注册账户信息。

An Information Filtering Method and Device

The embodiment of this specification discloses an information filtering method and device. The scheme includes: acquiring the registration request; the registration request includes the information of the account to be registered; determining the characters contained in the information of the account to be registered; judging whether the information of the account to be registered is a spam account according to the characters; refusing to register the information of the account to be registered when the information of the account to be registered is a spam account.

【技术实现步骤摘要】
一种信息过滤方法及装置
本申请涉及计算机
,尤其涉及一种信息过滤方法及装置。
技术介绍
随着信息技术的发展,网站已经可以为用户提供非常丰富的网络服务,用户通常需要在网站上注册自己的账户信息,以便获得更全面的服务。目前,存在由机器自动生成大量垃圾账户的情况,这些垃圾账户并不会被正常使用,通常是被恶意利用以获得更多的网络服务的资源。大量垃圾账户的存在不仅占用网络服务商的资源,而且过多的垃圾账户被恶意利用后,严重影响其他用户所获取的网络服务,导致网络服务资源的分配不均。现有技术中,对于垃圾账户的过滤通常采用地址信息过滤和网络行为过滤两种方式,其中,地址信息过滤的主要方法为:当监测到同一介质访问控制(MediaAccessControl,MAC)地址或互联网协议(InternetProtocol,IP)地址短时间内注册大量账户时,则判定这些账户为自动生成的垃圾账户,从而对这些垃圾账户进行过滤。而网络行为过滤的主要实现方式为:在已注册的账户进行登录后,针对该账户的网络行为进行监测,根据监测到的该账户的网络行为判断该账户是否为垃圾账户,并进行相应过滤。但是,一旦修改了注册账户信息的设备的MAC地址或IP地址,地址信息过滤的方法就将失效,因此,地址信息过滤的方法漏检率较高。而网络行为过滤的方法在执行时,由于垃圾账户的注册毕竟已经完成,而且对账号的网络行为进行监测也需要消耗较多的资源来完成,因此网络行为过滤的方法的效率较低。
技术实现思路
本申请实施例提供一种信息过滤方法及装置,用以解决对账户信息的过滤准确性较差且效率较低的问题。本申请实施例提供的一种信息过滤方法,包括:接收待注册账户信息;根据所述待注册账户信息中包含的字符,确定所述待注册账户信息为垃圾账户的可能性表征值;当所述可能性表征值大于预设阀值时,拒绝注册所述待注册账户信息。本申请实施例提供的一种信息过滤装置,包括:接收模块、表征值模块以及过滤处理模块,其中,所述接收模块,用于接收待注册账户信息;所述表征值模块,用于根据所述待注册账户信息中包含的字符,确定所述待注册账户信息为垃圾账户的可能性表征值;所述过滤处理模块,用于当所述可能性表征值大于预设阀值时,拒绝注册所述待注册账户信息。本申请实施例提供一种信息过滤方法及装置,接收待注册账户信息,根据所述待注册账户信息中包含的字符,确定所述待注册账户信息为垃圾账户的可能性表征值,当所述可能性表征值大于预设阀值时,拒绝注册所述待注册账户信息。通过上述方法,由于可能性表征值直观反映了待注册账户信息是垃圾账户的可能性,从而,使用可能性表征值和预先设定的阀值相比较,可准确判断出该账户信息是垃圾账户还是正常账户,采用上述方法不仅在新的账户信息在注册的过程中,就可对账户信息进行及时过滤,有效提升了对账户信息的过滤效率,而且,对新注册的账户信息的过滤过程不依赖于注册设备的地址信息,避免出现漏检的情况。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的信息过滤过程示意图;图2为申请实施例提供的信息过滤过程在具体应用中的流程图;图3本申请实施例提供的信息过滤装置结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请实施例提供的信息过滤过程,该过程具体包括以下步骤:S101:接收待注册账户信息。本申请实施例中所述的待注册账户信息,包括但不限于:包含有英文字母的用户名,如,Email地址信息。现有技术中,对账户信息的过滤通常需等待账户信息注册完成后,才能对账户信息进行相应的判断,即使服务器采用地址信息过滤的方法,也不能及时过滤垃圾账户,当注册账户信息的设备使用的新的MAC地址或IP地址时,也仍会有一定数量的垃圾账户完成注册,直到服务器监测到大量注册成功后的账户信息均来自于同一MAC地址或IP地址,服务器才会禁止该MAC地址或IP地址再次进行注册,在这个过程中,一定数量的垃圾账户的已经注册成功。因此,本申请实施例中的上述步骤S101,为了避免出现垃圾账户注册成功的情况,服务器在注册过程中就对待注册账户信息进行过滤。服务器在接收到待注册账户信息之后,便会立即确定该待注册账户信息为垃圾账户的可能性,即步骤S102。S102,根据所述待注册账户信息中包含的字符,确定所述待注册账户信息为垃圾账户的可能性表征值。对于正常的待注册账户信息而言,待注册账户信息作为一种具有唯一性的用户标识,其中包含的字符存在大量的组合方式(如:大小写字母、数字、符号等各种字符的组合等等),该待注册账户信息中所包含的字符通过这些组合方式形成相应的字符串,且各待注册账户信息的字符串长度也各不相同,有些待注册账户信息对应的字符串的组合虽然没有规律,但仍可能是用户为了避免出现账户名称重复而设计的独特组合方式。例如:字符串为“LXF1989”的账户信息中,三个英文字母“LXF”很可能对应于该用户姓名的拼音缩写,数字“1989”是该用户的出生年份;字符串为“Sylvia11”的账户信息中,英文单词“Sylvia”很可能对应于该用户的英文名,数字“11”可能是该用户为了避免与其他名为Sylvia的用户的账户信息发生冲突而添加的数字。可见,对于正常的待注册账户信息而言,其中的字符串均有相应的意义。但是,对于设备自动注册的待注册账户信息(垃圾账户),该设备为了保证顺利的完成注册(即保证待注册账户信息的唯一性),通常将待注册账户信息设置为较长且随机组合的字符串,例如:“jvhjvhb”、“zjbvvb”等。可见,这些垃圾账户对应的字符串并不是用户的姓名的拼音缩写,也不是英文单词,也就是说,这些字符串是无意义的。这样一来,就表明上述待注册账户信息是垃圾账户的可能性较高,那么,为了直观表示这种可能性,在本申请实施例中,采用可能性表征值的方式,量化待注册账户信息为垃圾账户的可能性,也即,本申请中所述的可能性表征值是该待注册账户信息是垃圾账户的可能性的量化值,该可能性表征值越高,表示该待注册账户信息是垃圾账户的可能性越大,反之,该可能性表征值越低,表示该待注册账户信息是垃圾账户的可能性越小。S103,判断确定的可能性表征值是否大于预设阀值,若是,则执行步骤S104,否则,执行步骤S105。S104,拒绝注册所述待注册账户信息。S105,注册该待注册账户信息。在本申请实施例中,上述预设阀值可根据需要进行设定。具体的,可预先根据已经注册、且确认为是垃圾账户的每个账户信息中包含的字符,确定出每个垃圾账户的可能性表征值,再将其中的最小值设定为上述预设阀值。其中,对于已注册账户信息,服务器可以通过现有技术中的网络行为过滤和地址信息过滤等多种方式,来确定已注册的账户信息是否为垃圾账户,这并不构成对本申请的限定。如果步骤S102中确定的待注册账户信息是垃圾账户的可能性表征值大于该预设阀值,就表明本文档来自技高网...

【技术保护点】
1.一种信息过滤方法,包括:获取注册请求;所述注册请求中包括待注册账户信息;确定所述待注册账户信息中包含的字符;根据所述字符判断所述待注册账户信息是否为垃圾账户;当所述待注册账户信息为垃圾账户时,拒绝注册所述待注册账户信息。

【技术特征摘要】
1.一种信息过滤方法,包括:获取注册请求;所述注册请求中包括待注册账户信息;确定所述待注册账户信息中包含的字符;根据所述字符判断所述待注册账户信息是否为垃圾账户;当所述待注册账户信息为垃圾账户时,拒绝注册所述待注册账户信息。2.如权利要求1所述的方法,所述根据所述字符判断所述待注册账户信息是否为垃圾账户,具体包括:从所述字符中确定出指定类型字符;根据所述指定类型字符确定所述待注册账户信息为垃圾账户的可能性表征值;确定所述垃圾账户的可能性表征值的最小阈值;当所述可能性表征值大于所述最小阈值时,确定所述待注册账户信息为垃圾账户。3.如权利要求2所述的方法,所述根据所述指定类型字符确定所述待注册账户信息为垃圾账户的可能性表征值,具体包括:将所述第一字符按照预设规则进行分词,得到分词结果;所述分词结果包括至少一个判断词;根据所述判断词确定所述待注册账户信息为垃圾账户的可能性表征值。4.如权利要求2所述方法,所述确定所述垃圾账户的可能性表征值的最小阈值,具体包括:获取预设数量的已注册成功的各个垃圾账户的可能性表征值;确定所述已注册成功的各个垃圾账户的可能性表征值中的最小值;将所述最小值作为所述垃圾账户的可能性的最小阈值。5.如权利要求4所述的方法,所述将所述第一字符按照预设规则进行分词,具体包括:确定每个判断词的预设字符串长度;根据所述预设字符串长度,从所述待注册账户信息包含的各字符中,选择出连续的、满足预设字符串长度的字符,将选择出的字符构成的字符串作为得到的判断词。6.如权利要求5所述的方法,所述确定每个判断词的预设字符串长度,具体包括:确定预设数量的已注册成功的正常账户的账户信息所包含的字符串的平均长度;将所述平均长度作为所述预设字符串长度。7.如权利要求3所述的方法,所述根据所述判断词确定所述待注册账户信息为垃圾账户的可能性表征值,具体包括:针对任意一个判断词,确定所述任意一个判断词在预先确定的各正常账户信息中出现的次数;根据所述次数,确定所述待注册账户信息为垃圾账户的可能性表征值,其中,所述可能性表征值与所述次数成反比。8.如权利要求3所述的方法,所述根据所述判断词确定所述待注册账户信息为垃圾账户的可能性表征值,具体包括:确定所述待注册账户信息中包含的字符数量以及每个判断词在正常用户的账户信息中的出现次数;根据所述字符数量以及所述出现次数确定所述待注册账户信息为垃圾账户的可能性表征值;其中,所述可能性表征值与所述待注册账户信息中包含的字符的数量成正比。9.如权利要求7所述的方法,所述根据针对每个判断词确定的次数,确定所述待注册账户信息为垃圾账户的可能性表征值,具体包括:采用公式确定所述待注册账户信息为垃圾账户的可能性表征值;其中,S为可能性表征值;tfi为对所述待注册账户信息中包含的字符进行分词后,得到的第i个判断词在预先确定的各正常账户信息中出现的次数,i=1、2……k,k为对所述待注册账户信息中包含的字符进行分词后,得到的判断词的数量。10.如权利要求8所述的方法,所述根据所述字符数量以及所述出现次数确定所述待注册账户信息为垃圾账户的可能性表征值,具体包括:采用公式确定所述待注册账户信息为垃圾账户的可能性表征值;其中,S为可能性表征值;tfi为对所述待注册账户信息中包含的字符进行分词后,得到的第i个判断词在预先确定的各正常账户信息中出现的次数,i=1、2……k,k为对所述待注册账户信息中包含的字符进行分词后,得到的判断词的数量;a为预设的长度惩罚系数,b为预设的短度补偿值,a、b为大于0的常数;x、y为预设的大于0的常数;n...

【专利技术属性】
技术研发人员:林述民
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1