虚假账号的识别方法及装置制造方法及图纸

技术编号:12067556 阅读:83 留言:0更新日期:2015-09-18 01:45
本发明专利技术公开了一种虚假账号的识别方法及装置,能够解决逐一对每个账号进行虚假账号识别时,识别所需的时间成本高及准确度低的问题,方法包括:查找预设时长内满足第一预设规则的至少一个用户标识,第一预设规则用于描述虚假账号的行为特征;从至少一个用户标识中选取目标用户标识,将目标用户标识分别与每个第一簇心进行相关性运算,得到相关系数,目标用户标识为第一簇心以外的用户标识;如果相关系数大于或等于预设阈值,则将目标用户标识合并到第一簇心所在的簇中;如果相关系数小于预设阈值,则将目标用户标识确定为第二簇心;根据第一簇心或第二簇心对应的簇中用户标识的数量确定虚假账号。本发明专利技术主要应用于网络安全运维的过程中。

【技术实现步骤摘要】

本专利技术涉及互联网通信技术,尤其涉及一种虚假账号的识别方法及装置
技术介绍
微博(Weibo),微型博客(MicroBlog)的简称,即一句话博客,是一个基于用户关 系信息分享、传播W及获取的平台。用户可W通过肥B、WAP等各种客户端组建个人社区,W 140字的文字更新信息,并实现即时分享。与传统的社交媒体产品(如即时聊天软件、短信 等)相比,微博是一种差异化的社交和社会化媒体的互联网产品。它的弱关系链特性,决定 了任何时候用户都可W随意收听任何陌生人;同时,由于它具有极强的扩散性,消息在粉丝 圈与粉丝圈之间的传播与扩散极其容易。 由于微博具有弱关系链特性和极强的扩散性,因此黑客可通过自动化工具恶意注 册大批虚假账号,通过使用网络爬虫等工具爬取相关内容和资料来进行运营,或者通过该 些账号为外界提供刷粉服务,或者批量发送垃圾广告。因而,需要通过一些方式来识别出该 些使用自动化工具的虚假账号。 现有技术中提供了一种基于IP聚集的方式实现虚假账号的识别,具体的;若一批 账号同时聚集在一个IP上,则通过其它一些行为特征基本对聚集在一个IP上的多个账号 进行识别。但是,当黑客逐渐使用大量的无规律的代理IP来操控虚假账号时,使用上述通 过聚集方式较难对虚假账号进行识别。现有技术中还提供了一种通过对同一账号的多个维 度的行为特征进行总和判断,确定某个账号是否为虚假账号。例如:从某账号的产生动作 的时间间隔、登陆的特征、W及动作序列H个维度的特征进行判断该账号是否为虚假账号。 然而,通过多维特征进行识别时,可能将正常用户的行为特征判别为可W特征,导致判别错 误。同时,黑客往往会使用数量众多的虚拟账号实现非法运营,因此逐一对每个账号进行识 别所需时间成本较高,且准确度较低。
技术实现思路
本专利技术的实施例提供一种虚假账号的识别方法及装置,能够解决逐一对每个账号 进行虚假账号识别时,识别所需的时间成本高及准确度低的问题。 -方面,本专利技术提供了一种虚假账号的识别方法,所述方法包括: 查找预设时长内满足第一预设规则的至少一个用户标识,所述第一预设规则用于 描述虚假账号的行为特征; 从所述至少一个用户标识中选取目标用户标识,将所述目标用户标识分别与每个 第一簇也进行相关性运算,得到相关系数,所述目标用户标识为所述第一簇也W外的用户 标识; 如果所述相关系数大于或等于预设阔值,则将所述目标用户标识合并到所述第一 簇也所在的簇中; 如果所述相关系数小于所述预设阔值,则将所述目标用户标识确定为第二簇也; 根据所述第一簇也或所述第二簇也对应的簇中用户标识的数量确定虚假账号。 另一方面,本专利技术还提供了一种虚假账号的识别装置,所述装置包括: 查找单元,用于查找预设时长内满足第一预设规则的至少一个用户标识,所述第 一预设规则用于描述虚假账号的行为特征; 选取单元,用于从所述至少一个用户标识中选取目标用户标识; 计算单元,用于将所述选取单元选取的所述目标用户标识分别与每个第一簇也进 行相关性运算,得到相关系数,所述目标用户标识为所述第一簇也W外的用户标识; 合并单元,用于当所述计算单元计算的相关系数大于或等于预设阔值时,将所述 目标用户标识合并到所述第一簇也所在的簇中; 确定单元,用于当所述计算单元计算的所述相关系数小于所述预设阔值时,将所 述目标用户标识确定为第二簇也; 所述确定单元还用于,根据所述合并单元得到的所述第一簇也或所述确定单元得 到的所述第二簇也对应的簇中用户标识的数量确定虚假账号。 本专利技术提供的虚假账号的识别方法及装置,能够首先根据虚拟账号的行为特征查 找到可疑的至少一个用户标识,再根据各用户标识与已有簇也(第一簇也)之间的相关性, 决定是否将用户标识作为新的簇也(第二簇也)或合并到已有簇也(第一簇也)对应的簇中, 最后通过判断每个簇中的用户标识的数量确定每个簇中的用户标识是否为虚假账号。现有 技术中,对每个用户标识在多个维度的行为特征进行计算,但存在逐一对每个账号进行识 别所需时间成本较高,且准确度较低的问题。本专利技术中根据各用户标识之间的相似度确定 得到各个簇,并根据各个簇中用户标识的数量确定该簇中的用户标识是否为虚假用户,进 行相似度比较的计算成本低于针对每个账号进行虚假账号分析的成本,因此本专利技术能够降 低识别虚假账号所需要的时间。根据簇中用户标识的数量确定虚假账户能够量化黑客通过 虚假账户进行的违法操作,进入更加准确的识别出虚假账号。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据该些附图获得其他的附图。 图1为本专利技术实施例中第一个虚假账号的识别方法的流程图; 图2为本专利技术实施例中第二个虚假账号的识别方法的流程图; 图3为本专利技术实施例中第H个虚假账号的识别方法的流程图; 图4为本专利技术实施例中第四个虚假账号的识别方法的流程图; 图5为本专利技术实施例中第一个虚假账号的识别装置的结构示意图。【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 本专利技术实施例提供了一种虚假账号的识别方法,如图1所示,所述方法包括: 步骤101、查找预设时长内满足第一预设规则的至少一个用户标识,第一预设规则 用于描述虚假账号的行为特征。 第一预设规则中描述了虚假账号通常出现的行为特征,该行为特征包括下述行为 特征中的至少一个: 1、与所述用户标识具有相同互联网协议IP地址的其他用户标识的数量大于预设 用户数量。 2、所述用户标识发送的数据包数量大于第一预设数量阔值。 3、所述用户标识收听的账号数量大于第二预设数量阔值。 第一种为IP地址聚集,黑客往往通过同一个终端(IP地址)登录不同的账号进行 非法运营,此时一个IP地址中登录有较多数量巧日100个)的用户标识。预设用户数量为普 通用户的平均使用量幼日2个)或最大使用量幼日10个)。 第二种为用户标识发送的数据包数量,即用户发送的消息数量。第一预设数量阔 值为普通用户发送的平均数据量或最大数据量,如50条信息。虚假用户标识发送的数据包 数量巧日5000条)往往大于普通用户发送的平均数据量或最大数量。第H种为用户标识收听的账号数量,在腾讯微博里,收听动作(follow)是一种行 为(在某些微博中称为"关注")。第二预设数量阔值为普通用户收听的平均账号数量或最大 账号数量,如收听10个账号。虚假用户标识收听的账号数量巧日收听2000个账号)往往大 于普通用户收听的平均账号数量或最大账号数量。 需要说明的是,上述发送的平均数据量或最大数据量、收听的平均账号数量或最 大账号数量W及登录的用户标识数量均为在预设时长内的操作,预设时长如一天。同时,虚 假账号的可W同时具备上述H种行为特征,也可具备上述H种行为特征中第一种或几种。 步骤102、从至少一个用户标本文档来自技高网
...

【技术保护点】
一种虚假账号的识别方法,其特征在于,所述方法包括:查找预设时长内满足第一预设规则的至少一个用户标识,所述第一预设规则用于描述虚假账号的行为特征;从所述至少一个用户标识中选取目标用户标识,将所述目标用户标识分别与每个第一簇心进行相关性运算,得到相关系数,所述目标用户标识为所述第一簇心以外的用户标识;如果所述相关系数大于或等于预设阈值,则将所述目标用户标识合并到所述第一簇心所在的簇中;如果所述相关系数小于所述预设阈值,则将所述目标用户标识确定为第二簇心;根据所述第一簇心或所述第二簇心对应的簇中用户标识的数量确定虚假账号。

【技术特征摘要】

【专利技术属性】
技术研发人员:王俊乐
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1