基于密集块检测的刷单检测引擎装置制造方法及图纸

技术编号:19859865 阅读:37 留言:0更新日期:2018-12-22 12:13
基于密集块检测的刷单检测引擎涉及信息技术领域,本发明专利技术由维度定义器,行为定义器,数据连接器,密集块检测器组成;其中密集块检测器由局部搜索器和调节模式算法组成;本发明专利技术的基于密集块检测的刷单检测引擎装置采用基于一种新的评价指标来发现在不确定图上的稠密子图,通过随机选取一个块,然后使用一种近似于贪心的方法不断调整这个块的维度,直到其达到局部最优。本发明专利技术的方法由于是在多维度对稠密子图进行比较挖掘,因此能够更加准确的找到在多个评价指标下即多个维度下都具有稠密子图特征的集合,因此能够准确而有效的确定虚假销售群体,恶意刷单的群体,具有高准确性,广泛适用性的特征。本发明专利技术可以广泛的应用于网络入侵检测、虚假微博转发量检测、僵尸粉分析以及遗传学相关研究。

【技术实现步骤摘要】
基于密集块检测的刷单检测引擎装置
本专利技术涉及信息
,尤其是信息技术中的基于大数据的行为分析领域。
技术介绍
随着电子商务行业的迅猛发展,网络购物逐渐成为一种新的生活方式,电商行业的竞争也愈演愈烈,在利益的驱动下,电商行为逐渐成为了电商平台的“潜规则”,由于电商业务正在发展之中,各种约束规范都不完善,所以电商平台的刷单行为比较严重。针对刷单行为,京东的反刷单系统从订单、商品、用户、物流等多个维度进行统计,分别计算每个维度下的不同特征值,能够较精准识别刷单相关的恶意行为。淘宝后台检测刷单的稽查系统,主要包括机审和人工审核两个方面,对于其中机审难以判断的订单进入人工排查得到最终结果,店家可申诉,申诉后即可进入人工判定阶段,通过查看商品评价的内容、买家信息进行判断。现有技术中的检测方法刷单检测仅限于电商平台内部的自我督查机制,需要大量的内部交易原始数据进行特征分析或者需要专门的数据接收和分析配备,仍无法清晰准确地分析出是否存在刷单行为。现有的技术通常依赖复杂的数据模型对刷单行为进行分析,通过获取多个商品的原始数据,需要计算大量的特征率值包括静默转化率、订单咨询率、流量转化率、成交转化率、订单支付率、收藏率、收货时间差、刷手占比、店铺停留时间,再通过计算最优训练模型得到所述目标商品的刷单概率或者需要依赖专门的设备接收和设置防止刷单行为的动态口令和密钥,很难在大批量的数据基础上快速地分析出群体性的刷单行为并对这些行为进行可疑度的排序。针对群体性的刷单行为,经过研究发现张量数据中的密集块往往对应着可疑的、同步的行为,比如垃圾传播者会重复去给饭馆或者旅馆写同样的、或高或低的、对自己有利的评价,或是用同样的用户、甚至是同样的文字。僵尸粉会大量去关注他们的顾客,使得粉丝数量能够很大。这种高密度的产生是归于同一个原因:垃圾传播者会受限于资源(用户、IP地址、时间戳等),但还是想尽可能在图或者张量数据中加更多的边来最大化金钱利益。直觉上讲,数据中的行为越同步,维度越高,这个数据就越值得进一步调查。张量模型中的密集块代表着一群用户的同步行为,密度越密集这些行为往往越可疑。张量中的密集块提取可以应用于网络入侵检测、虚假微博转发量检测、僵尸粉分析以及遗传学相关研究。本专利技术引进张量中的密集块分析技术解决网络平台虚假刷单的分析问题。密集块的定义:在邻接矩阵A(大小为M×N,密度为D),一个大小为m×n的块(S,T)可以被叫做“密集块”,当且仅当密度d(S,T)比均一密度要高,即d(S,T)≥,其中是矩阵的阈值密度。使用密集块计算来推测虚假销售行为模式,基本思想是虚假销售行为在图形中呈现密集行为的连接模式,邻接矩阵的特征子空间会呈现特殊的连接模式,通过呈现的特殊连接模式来分析网络购物、电子商务等平台的虚假销售、恶意刷单的行为。现有技术中对张量中的密集块进行快速准确的检测的方法有:第一种是基于张量分解的密集块挖掘,张量分解应用于对密集子张量的挖掘。基于张量分解的密集块挖掘方法存在着几点缺点:没考虑背景数据的性质;在密度指标下不具有较高延展性;不能提供合理的边界。第二种是稠密子图挖掘方法,最新的稠密子图挖掘的方法主要有:采用最大整体密度和有限重合寻找密集子图基于核分解的稠密子图的发现,该方法的缺点是边界模糊;基于一种新的评价指标来发现在不确定图上的稠密子图以及基于数据流或者分布式的动态稠密子图的挖掘,该方法需要确定新的评价指标,而评价指标与数据流有相关性,并不适用于所有场景。根据现有技术的缺陷,本专利技术的基于密集块检测的刷单检测引擎装置采用基于一种新的评价指标来发现在不确定图上的稠密子图,通过随机选取一个块,然后使用一种近似于贪心的方法不断调整这个块的维度,直到其达到局部最优。本专利技术的方法由于是在多维度对稠密子图进行比较挖掘,因此能够更加准确的找到在多个评价指标下即多个维度下都具有稠密子图特征的集合,因此能够准确而有效的确定虚假销售群体,恶意刷单的群体,具有高准确性,广泛适用性的特征。
技术实现思路
基于密集块检测的刷单检测引擎由维度定义器,行为定义器,数据连接器,密集块检测器组成;其中密集块检测器由局部搜索器和调节模式算法组成;维度定义器负责定义做密集块判定时的N维空间,在刷单检测时维度的类型包括但不限于:网店地址,博客地址,旅店评价地址,饭店评价地址;当对网店地址类型做刷单判定时,维度N指既定范围内的N家网店,既定范围指同一体系下,同一体系指管理范围,诸如天猫,京东,阿里巴巴属于不同的管理范围;行为定义器负责定义密集行为的类型,在刷单检测时密集行为的类型包括但不限于:重复评价,同样评价,僵尸粉大量关注;数据连接器负责为密集块检测器中的算法中的变量对应相应的数据类型,每个用户都可以表示成N维的数据点,子空间就是用两个奇异值组成的,是N维度的点在空间中的可视化。利用可以表示为特征子空间的点集形成,其中表示的是第n个用户在第i的左奇异向量中的值,右特征子空间类似,可表示成,通过这些空间中的散点图就能解释用户内在直接连接的特殊关系;表示维度j拥有Nj个可能取值;定义为可疑块中维度j可以取的可能值的合集,其中每个维度j上的可能取值都是相应维度上总数据集可能取值的子集;代表可疑块可能取值的质量;表示可疑块在数据块中的计算函数,其中f为评价函数;密集块检测器的局部搜索器负责从一个种子块开始,在K个维度中的每个维度j中计算最可能取值,迭代计算直到取得可疑块的最可能取值,输出可疑块;种子块支持随机选取的模式和指定选取的模式;局部搜索器的算法表示如下:Require:DataX,seedregionYwithwhilenotconvergeddoforj=1...KdoADJUSTMODE(j)endforendwhilereturn;ADJUSTMODE是密集块检测器的调节模式算法,调节模式算法每次需要计算的是维度j,所以在迭代时候需要固定其他维度除j维度以外维度取值不变;其中指的是在维度j中取值带来的质量变化。算法的复杂度为O(T×K×(E+NlogN)),其中T是迭代次数,K是维度的个数,E是数据集中非0的项的个数;调节模式算法的函数表达式ADJUSTMODE如下所示:有益效果实现本专利技术的基于密集块检测的刷单检测引擎相较于以往对个体的异常识别,识别的是群体,能更大量发现目标群体,由计算机实时计算结果,效率高。附图说明图1是本专利技术的框架结构图。具体实施方式参考图1,实现本专利技术的基于密集块检测的刷单检测引擎由维度定义器1,行为定义器2,数据连接器3,密集块检测器4组成;其中密集块检测器4由局部搜索器41和调节模式算法42组成;维度定义器1负责定义做密集块判定时的N维空间,在刷单检测时维度的类型包括但不限于:网店地址,博客地址,旅店评价地址,饭店评价地址;当对网店地址类型做刷单判定时,维度N指既定范围内的N家网店,既定范围指同一体系下,同一体系指管理范围,诸如天猫,京东,阿里巴巴属于不同的管理范围;行为定义器2负责定义密集行为的类型,在刷单检测时密集行为的类型包括但不限于:重复评价,同样评价,僵尸粉大量关注;数据连接器3负责为密集块检测器4中的算法中的变量对应相应的数据类型,每个用户都可以表示成N维的数据点,子空间就是用两个奇异值组成的,是N本文档来自技高网
...

【技术保护点】
1.基于密集块检测的刷单检测引擎,其特征在于由维度定义器,行为定义器,数据连接器,密集块检测器组成;其中密集块检测器由局部搜索器和调节模式算法组成;维度定义器负责定义做密集块判定时的N维空间,在刷单检测时维度的类型包括但不限于:网店地址,博客地址,旅店评价地址,饭店评价地址;当对网店地址类型做刷单判定时,维度N指既定范围内的N家网店,既定范围指同一体系下,同一体系指管理范围,诸如天猫,京东,阿里巴巴属于不同的管理范围;行为定义器负责定义密集行为的类型,在刷单检测时密集行为的类型包括但不限于:重复评价,同样评价,僵尸粉大量关注;数据连接器负责为密集块检测器中的算法中的变量对应相应的数据类型,每个用户都可以表示成N维的数据点,子空间就是用两个奇异值组成的,是N维度的点在空间中的可视化;利用

【技术特征摘要】
1.基于密集块检测的刷单检测引擎,其特征在于由维度定义器,行为定义器,数据连接器,密集块检测器组成;其中密集块检测器由局部搜索器和调节模式算法组成;维度定义器负责定义做密集块判定时的N维空间,在刷单检测时维度的类型包括但不限于:网店地址,博客地址,旅店评价地址,饭店评价地址;当对网店地址类型做刷单判定时,维度N指既定范围内的N家网店,既定范围指同一体系下,同一体系指管理范围,诸如天猫,京东,阿里巴巴属于不同的管理范围;行为定义器负责定义密集行为的类型,在刷单检测时密集行为的类型包括但不限于:重复评价,同样评价,僵尸粉大量关注;数据连接器负责为密集块检测器中的算法中的变量对应相应的数据类型,每个用户都可以表示成N维的数据点,子空间就是用两个奇异值组成的,是N维度的点在空间中的可视化;利用可以表示为特征子空间的点集形成,其中表示的是第n个用户在第i的左奇异向量中的值,右特征子空间类似,可表示成,通过这些空间中的散点图就能解释用户内在直接连接的特殊关系;表示维度j拥有Nj个可能取值;定义为可疑块中...

【专利技术属性】
技术研发人员:林飞王娜熊骁潘练古元毛华阳
申请(专利权)人:北京亚鸿世纪科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1