一种异常行为检测方法、装置、设备及存储介质制造方法及图纸

技术编号:25553610 阅读:54 留言:0更新日期:2020-09-08 18:54
本发明专利技术实施例提供了一种异常行为检测方法、装置、设备及存储介质;方法包括:获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到流量载体集合在预定时间段的留存来源信息集合;依据留存来源信息集合,对流量载体集合进行分类,得到至少一类流量载体;针对至少一类流量载体的每类流量载体,获取每类流量载体中的流量载体之间的实体相似度;当实体相似度大于预设相似度阈值时,确定每类流量载体中的流量载体存在异常行为。通过本发明专利技术实施例,能够提升异常行为检测的准确度。

【技术实现步骤摘要】
一种异常行为检测方法、装置、设备及存储介质
本专利技术涉及计算机应用邻域中的信息处理技术,尤其涉及一种异常行为检测方法、装置、设备及存储介质。
技术介绍
多媒体投放对象有向被推广用户推送多媒体信息,以对产品或服务进行宣传的需求;在投放多媒体信息时,由于流量载体是被推广用户的载体,而多媒体信息是面向被推广用户的,因此,多媒体投放对象通常通过多媒体推广平台中的流量载体进行多媒体信息的投放,以实现多媒体信息的推广。目前,多媒体推广平台上存在很多流量载体,而一部分恶意流量载体常常与恶意被推广用户合作,采用异常的方式,对流量载体上投放的多媒体信息进行虚假点击等恶意处理,提升在流量载体对应的推广位上展示的多媒体信息的点击率、曝光率或转化率等信息,以此获取更多利润。所以,需要对恶意流量载体的作弊等异常行为进行检测,以维护多媒体投放对象的利益。一般来说,为了对恶意流量载体的作弊等异常行为进行检测,通常基于点击量、曝光量等信息对被推广用户进行离群检测,将检测出的离群点估计为异常用户或异常实体,进而根据估计的异常用户或异常实体确定流量载体的作弊等异常行为。然而,上述确定流量载体的作弊等异常行为的过程中,仅仅是通过被推广用户对应的点击量、曝光量等信息的离群结果确定的,判断手段单一,存在误差的可能性高,检测的准确度低。
技术实现思路
本专利技术实施例提供一种异常行为检测方法、装置、设备及存储介质,能够提升异常行为检测的准确度。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种异常行为检测方法,包括:获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每个单位时间进行操作的实体来自所述预定时间段中的所述前序时间的比率,所述前序时间在时间上位于所述后序时间之前;依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。本专利技术实施例提供一种异常行为检测装置,包括:留存来源获取模块,用于获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每个单位时间进行操作的实体来自所述预定时间段中的所述前序时间的比率,所述前序时间在时间上位于所述后序时间之前;分类模块,用于依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;相似度模块,用于针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;异常检测模块,用于当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。本专利技术实施例提供一种异常行为检测设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本专利技术实施例提供的异常行为检测方法。本专利技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本专利技术实施例提供的异常行为检测方法。本专利技术实施例具有以下有益效果:由于在进行异常行为检测时,通过获取各流量载体对应的留存来源信息集合,并基于留存来源信息集合对流量载体进行分类,能够得到各流量载体之间在留存率和来源率方面具备高相似度的多类流量载体;又由于流量载体的留存率和来源率表征了流量载体中的实体进行操作的规律,以及异常的实体进行操作的规律相同;因此,当某类流量载体中流量载体之间的实体相似度大于预设相似度阈值时,也就表明该类流量载体中存在较多的操作规律相同的实体,从而也就能够确定该类流量载体存在异常行为;如此,实现了一种准确确定流量载体的异常行为的技术方案,进而,提升了异常行为检测的准确度。附图说明图1是一种示例性的多媒体信息推广平台的示意图;图2是一种示例性的异常行为的示意图;图3是一种示例性的离群结果示意图;图4是一种示例性的聚类结果示意图;图5是本专利技术实施例提供的异常行为检测系统的一个可选的架构示意图;图6是本专利技术实施例提供的一种图5中的服务器的组成结构示意图;图7是本专利技术实施例提供的异常行为检测方法的一个可选的流程示意图;图8是本专利技术实施例提供的异常行为检测方法的另一个可选的流程示意图;图9为本专利技术实施例提供的一种示例性的获取单位留存率的示意图;图10为本专利技术实施例提供的一种示例性的获取单位来源率的示意图;图11是本专利技术实施例提供的一种示例性的留存来源信息;图12是本专利技术实施例提供的另一种示例性的留存来源信息;图13是本专利技术实施例提供的异常行为检测系统的另一个可选的架构示意图;图14是本专利技术实施例提供的一种示例性的获取异常实体的流程示意图;图15是本专利技术实施例提供的一种示例性的留存来源热力图的示意图一;图16是本专利技术实施例提供的一种示例性的留存来源热力图的示意图二;图17是本专利技术实施例提供的一种示例性的相似度的示意图;图18是本专利技术实施例提供的一种示例性的实体点击信息的示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,所描述的实施例不应视为对本专利技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本专利技术实施例能够以除了在这里图示或描述的以外的顺序实施。除非另有定义,本专利技术实施例所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本专利技术实施例中所使用的术语只是为了描述本专利技术实施例的目的,不是旨在限制本专利技术。对本专利技术实施例进行进一步详细说明之前,对本专利技术实施例中涉及的本文档来自技高网
...

【技术保护点】
1.一种异常行为检测方法,其特征在于,包括:/n获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每个单位时间进行操作的实体来自所述预定时间段中的所述前序时间的比率,所述前序时间在时间上位于所述后序时间之前;/n依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;/n针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;/n当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。/n

【技术特征摘要】
1.一种异常行为检测方法,其特征在于,包括:
获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每个单位时间进行操作的实体来自所述预定时间段中的所述前序时间的比率,所述前序时间在时间上位于所述后序时间之前;
依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;
针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;
当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。


2.根据权利要求1所述的方法,其特征在于,所述获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,包括:
在所述预定时间段中,获取所述流量载体集合中的所述每个流量载体在N个单位时间内的N个实体集合,所述N个实体集合与所述N个单位时间一一对应,所述N个实体集合为所述每个单位时间的所述多个实体构成的与所述N个单位时间对应的集合,N为所述预定时间段内的单位时间的数量,N为大于等于1的整数;
基于所述N个实体集合,计算出所述每个单位时间的所述多个实体的所述留存率和所述来源率;
基于所述留存率和所述来源率,构成所述每个流量载体在所述预定时间段的留存来源信息,从而得到所述流量载体集合在所述预定时间段的所述留存来源信息集合,所述留存来源信息为所述每个流量载体在所述每个单位时间的所述留存率和所述来源率构成的与所述N个单位时间对应的信息。


3.根据权利要求2所述的方法,其特征在于,所述基于所述N个实体集合,计算出所述每个单位时间的所述多个实体的所述留存率和所述来源率,包括:
基于所述N个实体集合,计算出当前单位时间的多个实体在后序单位时间的单位留存率,从而得到所述当前单位时间对应的留存率,其中,所述后序单位时间为所述预定时间段内,所述当前单位时间之后的各个单位时间中的任一单位时间,所述当前单位时间为所述N个单位时间中的任意一个,所述当前单位时间对应的留存率包括至少一个单位留存率;
基于所述N个实体集合,计算出所述当前单位时间的多个实体来源于前序单位时间的单位来源率,从而得到所述当前单位时间对应的来源率,其中,所述前序单位时间为所述预定时间段内,所述当前单位时间之前的各个单位时间中的任一单位时间,所述当前单位时间对应的来源率包括至少一个单位来源率;
将所述当前单位时间更换为所述N个单位时间中另一单位时间重复上述操作,得到所述另一单位时间的留存率和来源率,直至处理完所述N个单位时间时为止,得到所述每个单位时间的所述留存率和所述来源率。


4.根据权利要求3所述的方法,其特征在于,所述基于所述N个实体集合,计算出当前单位时间的多个实体在后序单位时间的单位留存率,包括:
基于所述N个实体集合,获取所述当前单位时间对应的当前实体集合和所述后序单位时间对应的后序实体集合之间的共同实体,得到第一单位共同实体;
将所述第一单位共同实体与所述当前实体集合的比值,作为所述当前单位时间在所述后序单位时间的所述单位留存率。


5.根据权利要求3所述的方法,其特征在于,所述基于所述N个实体集合,计算出所述当前单位时间的多个实体来源于前序单位时间的单位来源率,包括:
基于所述N个实体集合,获取所述当前单位时间对应的当前实体集合和所述前序单位时间对应的前序实体集合之间的共同实体,得到第二单位共同实体;
将所述第二单位共同实体与所述当前实体集合的比值,作为所述当前单位时间在所述前序单位时间的所述单位来源率。


6.根据权利要求1至5任一项所述的方法,其特征在于,所述依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至...

【专利技术属性】
技术研发人员:张李均焕
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1