【技术实现步骤摘要】
一种实体类型确定方法和相关装置
[0001]本申请涉及数据处理领域,特别是涉及一种实体类型确定方法和相关装置。
技术介绍
[0002]用户可以通过电子邮箱收发邮件,实现便利的信息交流,目前电子邮箱广泛应用于人们的生活、工作、学习当中。相应的,垃圾邮件也应运而生,一些用户通过批量、重复发送垃圾邮件进行不良信息的散播,私密信息的窃取等,对电子邮箱的使用产生不好的影响。
[0003]为了能够从用户中识别出上述散播垃圾邮件的恶意实体,目前的邮箱自动反垃圾体系中,会自动针对实体进行黑名单识别。现有的自动识别方案为图聚类:将电子邮箱系统中的用户作为实体,并基于实体关系构造关系图,再通过社区划分算法(例如Fast Unfolding with density这类基于密度的社区划分算法)进行聚类,并针对聚成的实体簇进行行为整合,批量评价、识别恶意实体。
[0004]但是由于构造关系图需要丰富的关系、足够多的实体以及连边,导致构建的关系图数据量很大(如发件人实体构图节点数亿级别,连边十亿级别),更新周期长,这就使整个图聚类的流程执行缓慢,而且难以发现新出现的恶意实体。
技术实现思路
[0005]为了解决上述技术问题,本申请提供了一种实体类型确定方法和相关装置,不仅能够提高识别实体类型的流程的执行速度,还能够发现新出现的恶意实体。
[0006]本申请实施例公开了如下技术方案:
[0007]一方面,本申请提供一种实体类型确定方法,所述方法包括:
[0008]获取邮箱系统中实体的第一行 ...
【技术保护点】
【技术特征摘要】
1.一种实体类型确定方法,其特征在于,所述方法包括:获取邮箱系统中实体的第一行为数据,所述第一行为数据用于标识所对应实体在第一时段内的邮箱使用行为;根据所述第一行为数据确定多个初始行为模式;获取所述邮箱系统中目标实体的第二行为数据,所述第二行为数据用于标识所对应目标实体在第二时段内的邮箱使用行为,所述目标实体为在所述第二时段中邮箱使用行为发生变化的实体,所述第二时段晚于所述第一时段;根据所述第二行为数据和所述初始行为模式,确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式;根据所述目标行为模式对应的行为类型,确定所述目标实体的实体类型。2.根据权利要求1所述的方法,其特征在于,所述根据所述第二行为数据和所述初始行为模式,确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式,包括:根据所述第二行为数据确定所述目标实体分别对应的第二特征向量;确定所述第二特征向量与所述初始行为模式对应特征向量间的向量距离,将所述向量距离大于距离阈值的第二特征向量作为待定特征向量;通过对所述待定特征向量进行向量聚类,得到至少一个第二向量簇;根据所述第二向量簇包括的待定特征向量,确定所述目标行为模式。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标行为模式对应的行为类型,确定所述目标实体的实体类型,包括:根据与所述第二向量簇对应的第二行为数据,确定所述目标行为模式的行为类型;若从所述目标行为模式中确定出行为类型为恶意类型的恶意行为模式,将所述恶意行为模式所对应第二向量簇中关联的目标实体确定为恶意实体。4.根据权利要求2所述的方法,其特征在于,所述通过对所述待定特征向量进行向量聚类,得到至少一个第二向量簇,包括:对所述待定特征向量进行均匀采样,得到采样特征向量,所述采样特征向量的数量小于所述待定特征向量的数量;根据所述采样特征向量进行向量聚类,得到至少一个第二向量簇。5.根据权利要求2所述的方法,其特征在于,目标向量为所述初始行为模式所对应簇特征向量中的一个,所述距离阈值通过如下方式确定:确定所述第二特征向量与所述目标向量间的待定向量距离;根据从大到小排列的阈值序列,依次确定所述待定向量距离满足所述阈值序列中待定阈值的第二特征向量的向量个数;若处于第i个待定阈值的向量个数与处于第i+1个待定阈值的向量个数间数量差达到预定条件,根据所述第i个待定阈值确定所述距离阈值。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一行为数据确定多个初始行为模式,包括:根据所述第一行为数据确定所述邮箱系统中实体分别对应的第一特征向量;通过对所述第一特征向量进行向量聚类,得到多个第一向量簇;
根据所述第一向量簇包括的第一特征向量,确定与所述多个第一向量簇一一对应的多个初始行为模式。7.根据权利要求6所述的方法,其特征在于,所述根据所述第一向量簇包括的第一特征向量,确定与所述多个第一向量簇一一对应的多个初始行为模式,包括:从所述第一向量簇包括的第一特征向量中进行向量采样,根据采样得到的第一特征...
【专利技术属性】
技术研发人员:张珅嘉,杨坤,刘晓明,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。