一种实体类型确定方法和相关装置制造方法及图纸

技术编号:34714440 阅读:11 留言:0更新日期:2022-08-31 17:56
本申请实施例公开了一种实体类型确定方法和相关装置,利用人工智能模型中的聚类分析,获取邮箱系统中实体的第一行为数据,第一行为数据用于标识所对应实体在第一时段内的邮箱使用行为;根据第一行为数据确定多个初始行为模式;获取邮箱系统中目标实体的第二行为数据,第二行为数据用于标识所对应目标实体在第二时段内的邮箱使用行为,目标实体为在第二时段中邮箱使用行为发生变化的实体,第二时段晚于第一时段;根据第二行为数据和初始行为模式,确定目标实体在第二时段内与初始行为模式不同的目标行为模式;根据目标行为模式的对应的行为类型,确定目标实体的实体类型。由于行为模式的数量相对有限,执行目标实体识别时更为迅速。为迅速。为迅速。

【技术实现步骤摘要】
一种实体类型确定方法和相关装置


[0001]本申请涉及数据处理领域,特别是涉及一种实体类型确定方法和相关装置。

技术介绍

[0002]用户可以通过电子邮箱收发邮件,实现便利的信息交流,目前电子邮箱广泛应用于人们的生活、工作、学习当中。相应的,垃圾邮件也应运而生,一些用户通过批量、重复发送垃圾邮件进行不良信息的散播,私密信息的窃取等,对电子邮箱的使用产生不好的影响。
[0003]为了能够从用户中识别出上述散播垃圾邮件的恶意实体,目前的邮箱自动反垃圾体系中,会自动针对实体进行黑名单识别。现有的自动识别方案为图聚类:将电子邮箱系统中的用户作为实体,并基于实体关系构造关系图,再通过社区划分算法(例如Fast Unfolding with density这类基于密度的社区划分算法)进行聚类,并针对聚成的实体簇进行行为整合,批量评价、识别恶意实体。
[0004]但是由于构造关系图需要丰富的关系、足够多的实体以及连边,导致构建的关系图数据量很大(如发件人实体构图节点数亿级别,连边十亿级别),更新周期长,这就使整个图聚类的流程执行缓慢,而且难以发现新出现的恶意实体。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种实体类型确定方法和相关装置,不仅能够提高识别实体类型的流程的执行速度,还能够发现新出现的恶意实体。
[0006]本申请实施例公开了如下技术方案:
[0007]一方面,本申请提供一种实体类型确定方法,所述方法包括:
[0008]获取邮箱系统中实体的第一行为数据,所述第一行为数据用于标识所对应实体在第一时段内的邮箱使用行为;
[0009]根据所述第一行为数据确定多个初始行为模式;
[0010]获取所述邮箱系统中目标实体的第二行为数据,所述第二行为数据用于标识所对应目标实体在第二时段内的邮箱使用行为,所述目标实体为在所述第二时段中邮箱使用行为发生变化的实体,所述第二时段晚于所述第一时段;
[0011]根据所述第二行为数据和所述初始行为模式,确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式;
[0012]根据所述目标行为模式对应的行为类型,确定所述目标实体的实体类型。
[0013]另一方面,本申请提供一种实体类型确定装置,所述装置包括:获取单元和确定单元;
[0014]所述获取单元,用于获取邮箱系统中实体的第一行为数据,所述第一行为数据用于标识所对应实体在第一时段内的邮箱使用行为;
[0015]所述确定单元,用于根据所述第一行为数据确定多个初始行为模式;
[0016]所述获取单元,还用于获取所述邮箱系统中目标实体的第二行为数据,所述第二
行为数据用于标识所对应目标实体在第二时段内的邮箱使用行为,所述目标实体为在所述第二时段中邮箱使用行为发生变化的实体,所述第二时段晚于所述第一时段;
[0017]所述确定单元,还用于根据所述第二行为数据和所述初始行为模式,确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式;根据所述目标行为模式对应的行为类型,确定所述目标实体的实体类型。
[0018]另一方面,本申请提供一种计算机设备,所述设备包括处理器以及存储器:
[0019]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0020]所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
[0021]另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
[0022]另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
[0023]由上述技术方案可以看出,针对邮箱系统中的实体,获取实体在第一时段内的邮箱使用行为对应的第一行为数据,基于第一行为数据中所体现邮箱使用行为之间相似性和特点可以确定多个初始行为模式,由于第一行为数据覆盖邮箱系统中实体的数量较多,获得的初始行为模式比较丰富全面,故可以作为后续确定目标行为模式的基础,而且将数量较多的第一行为数据转化为数量较少的初始行为模式,基于数量较少的初始行为模式确定目标行为模式降低了计算量,提高了后续实体类型的模型速度。获取目标实体在第二时段内的邮箱使用行为对应的第二行为数据,其中,目标实体是第二时段内邮箱使用行为发生变化的实体,目标实体数量较少,故相比于所有实体在第二时段内的行为数据,第二行为数据的数量较少,基于较少数量的第二行为数据确定目标行为模式降低了计算量,可以提高后续实体类型的识别速度。根据第二行为数据和初始行为模式,确定目标实体在第二时段内与初始行为模式不同的目标行为模式。由于第二时段晚于第一时段,通过目标实体在新时段内的新行为数据,可以发现初始行为模式中不包含的新行为模式,通过目标行为模式作为初始行为模式的一种补充,提高了对新增行为模式的识别时效性。在确定了目标行为模式的行为类型后,可以基于目标实体属于何种行为类型快速确定邮箱系统中目标实体的实体类型。由于行为模式的数量相对有限,一般远小于相关技术所使用关系图中的实体节点数量,执行目标实体识别时更为迅速,且通过目标行为模式,使得行为模式的涵盖范围全面,也能够保证总体识别精度。
附图说明
[0024]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1为本申请实施例提供的实体类型确定方法的应用场景示意图;
[0026]图2为本申请实施例提供的一种实体类型确定方法的流程示意图;
[0027]图3为本申请实施例提供的一种跳表的示意图;
[0028]图4为本申请实施例提供的一种HNSW算法的示意图;
[0029]图5a为本申请实施例提供的一种待定特征向量分布的示意图;
[0030]图5b为本申请实施例提供的一种待定特征向量分布的示意图;
[0031]图6为本申请实施例提供的一种层次聚类树状图的示意图;
[0032]图7为本申请实施例提供的一种确定簇间距离的示意图;
[0033]图8为本申请实施例提供的一种初始行为模式的确定方式的示意图;
[0034]图9为本申请实施例提供的一种实体类型确定方法的场景示意图;
[0035]图10为本申请实施例提供的一种确定目标行为模式的流程图;
[0036]图11为本申请实施例提供的一种实体类型确定装置的示意图;
[0037]图12为本申请实施例提供的服务器的结构示意图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体类型确定方法,其特征在于,所述方法包括:获取邮箱系统中实体的第一行为数据,所述第一行为数据用于标识所对应实体在第一时段内的邮箱使用行为;根据所述第一行为数据确定多个初始行为模式;获取所述邮箱系统中目标实体的第二行为数据,所述第二行为数据用于标识所对应目标实体在第二时段内的邮箱使用行为,所述目标实体为在所述第二时段中邮箱使用行为发生变化的实体,所述第二时段晚于所述第一时段;根据所述第二行为数据和所述初始行为模式,确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式;根据所述目标行为模式对应的行为类型,确定所述目标实体的实体类型。2.根据权利要求1所述的方法,其特征在于,所述根据所述第二行为数据和所述初始行为模式,确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式,包括:根据所述第二行为数据确定所述目标实体分别对应的第二特征向量;确定所述第二特征向量与所述初始行为模式对应特征向量间的向量距离,将所述向量距离大于距离阈值的第二特征向量作为待定特征向量;通过对所述待定特征向量进行向量聚类,得到至少一个第二向量簇;根据所述第二向量簇包括的待定特征向量,确定所述目标行为模式。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标行为模式对应的行为类型,确定所述目标实体的实体类型,包括:根据与所述第二向量簇对应的第二行为数据,确定所述目标行为模式的行为类型;若从所述目标行为模式中确定出行为类型为恶意类型的恶意行为模式,将所述恶意行为模式所对应第二向量簇中关联的目标实体确定为恶意实体。4.根据权利要求2所述的方法,其特征在于,所述通过对所述待定特征向量进行向量聚类,得到至少一个第二向量簇,包括:对所述待定特征向量进行均匀采样,得到采样特征向量,所述采样特征向量的数量小于所述待定特征向量的数量;根据所述采样特征向量进行向量聚类,得到至少一个第二向量簇。5.根据权利要求2所述的方法,其特征在于,目标向量为所述初始行为模式所对应簇特征向量中的一个,所述距离阈值通过如下方式确定:确定所述第二特征向量与所述目标向量间的待定向量距离;根据从大到小排列的阈值序列,依次确定所述待定向量距离满足所述阈值序列中待定阈值的第二特征向量的向量个数;若处于第i个待定阈值的向量个数与处于第i+1个待定阈值的向量个数间数量差达到预定条件,根据所述第i个待定阈值确定所述距离阈值。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一行为数据确定多个初始行为模式,包括:根据所述第一行为数据确定所述邮箱系统中实体分别对应的第一特征向量;通过对所述第一特征向量进行向量聚类,得到多个第一向量簇;
根据所述第一向量簇包括的第一特征向量,确定与所述多个第一向量簇一一对应的多个初始行为模式。7.根据权利要求6所述的方法,其特征在于,所述根据所述第一向量簇包括的第一特征向量,确定与所述多个第一向量簇一一对应的多个初始行为模式,包括:从所述第一向量簇包括的第一特征向量中进行向量采样,根据采样得到的第一特征...

【专利技术属性】
技术研发人员:张珅嘉杨坤刘晓明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1