【技术实现步骤摘要】
一种基于机器学习的防秒杀预判系统
[0001]本专利技术创造涉及大数据及信息安全领域,具体涉及一种基于机器学习的防秒杀预判系统。
技术介绍
[0002]随着科学技术的飞速发展,大数据已成为如今新兴技术的重要分支,大数据作为现阶段研究热点,需配备科学、合理机器学习算法满足社会需求,并提升数据处理效率,结合大数据特点,借助聚类及分治等算法,增强数据处理条理性,降低数据分析、数据处理难度,增强机器学习能力,此外,为于大数据领域有所突破,还应将传统机器算法予以优化升级,全面提升数据处理能力。
[0003]机器学习是由模式识别、人工智能计算学习理论为基础所转变的一类计算机科学分支,被广泛应用至各相关领域中,机器学习是一项多领域综合学科,涉及算法复杂度理论、逼近论、统计学及概率论等多项理论,此学科将计算机如何模拟及实现人类学习行为作为主要研究内容,探究计算机获取新知识、技能方式,将已存在知识结构予以重新组织,实现自身性能不断优化,机器学习为人工智能核心,也为使计算机拥有智能的基本方式,现已逐渐应用至与人工智能相关的各领域中,主要为综合及归纳而并非演绎,据研究表明,多数状态下,处理数据规模越大,机器学习模型效率越高,所以,机器学习是大数据智能分析的主要方式,机器学习为现阶段大数据重要处理方式,能将多种优势予以结合,针对具体问题选取最为适宜处理方式,机器学习能将人为因素所造成的局限性予以突破,借助深度学习、决策树及神经网络等,将数据予以科学处理,并将数据运算速度予以有效提升,现阶段统计调查、商业活动及信息网络等均会产生大量数 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的防秒杀预判系统,其特征在于,包括订单数据采集模块、数据库模块和交易模块,订单数据采集模块用于获取客户和市场的大量订单数据,数据库模块包括区块链管理单元、订单数据检测单元、机器学习分类单元和恶意流量限制单元,区块链管理单元采用SIFI算法对订单数据采集模块采集的订单数据进行特征提取预处理,订单数据检测单元采用THS
‑
IDPC算法对区块链管理单元预处理后的订单数据进行恶意流量检测,机器学习分类单元采用随机森林算法对订单数据检测单元检测后的订单数据进行良性流量和恶意流量的分类,恶意流量限制单元采用自适应滑动窗口算法对机器学习分类单元分类后的订单数据进行恶意高频流量限制,交易模块用于客户正常交易。2.根据权利要求1所述的一种基于机器学习的防秒杀预判系统,其特征在于,订单数据采集模块通过各个网络平台的历史客户订单数据,获取大量的在线客户订单数据。3.根据权利要求1所述的一种基于机器学习的防秒杀预判系统,其特征在于,区块链管理单元采用SIFI算法对采集的数据进行特征提取预处理,减少数据维度,整理已有的数据特征。4.根据权利要求3所述的一种基于机器学习的防秒杀预判系统,其特征在于,SIFT算法首先需要建立高斯尺度的空间金字塔,高斯尺度空间金字塔有O个八度,每个八度都有S个区间,下一个八度的订单数据是通过对上一个八度进行下采样获得的,在一个八度内,不同区间的订单数据是原始订单数据与可变高斯函数的卷积,然后根据高斯尺度空间金字塔建立高斯尺度空间数据金字塔的差异,高斯尺度空间金字塔中两个相邻间隔的差异在高斯尺度空间金字塔中创建一个间隔,最后,在高斯的尺度空间内检测特征,高斯尺度空间如下:D(x,y,z)=(G(x,y,kσ)
‑
H(x,y,σ))*I(x,y)=L(x,y,kσ)
‑
L(x,y,σ),其中,G(x,y,σ)为标度变量高斯函数,σ为标量变量因子,k为比例系数,选择每个倍频程的底部间隔作为数据,将其转换为高斯数据,并首先扫描整个数据内容,然后找到数据中的最大值x
max
和最小值x
min
,中值x
mid
为:然后定义一个阈值来进行订单数据特征提取,即:阈值数据g(x,y)为:其中,f(x,y)为原始客户订单数据;再结合正则化,正则化对应于模型参数w的先验分布,设D表示观测数据,w表示模型参数,模型参数w的后验概率为:其中,p(D|w)为似然函数,p(D)为常数,w使用最大后验概率MAP来估计,即w
MAP
=argmax
w
p(w|D)=argmax
w
p(D|w)p(w)=argmaxlog
w
p(D|w)+logp(w),其中,logp(w)为模型参数先验分布的对数,即正则项,对于高斯正则化GM,假设所有模型参数w都是从相同的一维GM分布中采样的,一维GM分布表示为:其中,K为高斯分量的数量,π
k
为满足约束的混合系数,N(x|u
k
,λ
k
)为高斯分布,u
k
为平均值,λ
k
为第k个高斯分量的精度,为了学习模型参数w的GM先验,分别为混合系数π
k
和高斯精度λ
k
引入了两种先验分布,用作混合系数π
k
的先验分布的狄利克雷分布为:其中,α1,
…
,α
k
为分布的参数,α为[α1,
…
,α
k
]
T
,Г(x)为伽玛函数,GM分布的所有高斯分量的平均值被设置为零,当GM分布的平均值固定时,伽玛分布是高斯精度的共轭先验,即:
其中,Gam(λ|a,b)为伽玛分布函数,a和b是伽玛分布的两个参数,它们控制伽玛分布的形状和衰减率,在GM学习过程中,a和b用于控制λ的规模。5.根据权利要求1所述的一种基于机器学习的防秒杀预判系统,其特征在于,订单数据检测单元采用THS
‑
IDPC算法对预处理后的订单数据进行恶意流量检测,检测出原始订单数据中的恶意流量订单。6.根据权利要求5所述的一种基于机器学习的防秒杀预判系统,其特征在于,THS
‑
IDPC算法首先计算样本的局部密度,并使用KNN算法找到密度峰值,密度峰值的k个最近邻居knn(x
i
)被分配给样本局部密度相应的簇,然后,计算数据之间的相互邻居度,基于相互邻居度为所有分配的数据点找到最接近的未分配数据点,将未分配数据点分配给数据点所在的簇,然后重复此操作,直到分配完所有数据点,或所有未分配数据点与分配数据点之间的相互相邻度为0,如果存在未分配数据,则使用分配策略分配数据点,THS
‑
IDPC算法假定一个数据集D={x1,x2,
…
,x
i
,x
j
,
…
,x
n
},所有的数据x
i
,x
j
∈D,x
i
与x
j
之间的距离dist(x
i
,x
j
)定义为:其中,d为x
i
的最大特征个数,为x
i
的第dim个特征,为x
j
的第dim个特征,且dist(x
i
,x
j
)=dist(x
j
,x
i
),i≠j,截止核局部密度ρ
i
定义为:其中,dist(x
i
,x
j
)为数据x
i
与x
j
之间的距离,dist
cutoff
为给定截止距离,是用户预定义的唯一参数,且dist
cutoff
>0,数据x
i
的截止核局部密度ρ
i
表示数据x
i
在给定截止距离dist
cutoff
内的数据个数,高斯核局部密度定义为:其中,dist(x
i
,x
j
)为数据x
i
与x
j
之间的距离,dist
cutoff
为给定截止距离,是用户预定义的唯一参数,且dist
cutoff
>0,高密度距离δ
i
通过计算数据x
i
和任何其他高密度数据之间的最小距离确定,每个数据的局部密度按从大到小排列,即:ρ
i
>ρ
j
>ρ
k
>
…
,计算最高密度数据的相对距离与其他数据不同,对于具有最高密度的数据,高密度距离δ
i
由下式计算:对于其他数据,高密度距离δ
i
由下式计算:当数据x
i
有最大局部密度时,δ
i
表示x
i
与距离x
i
最大的数据之间的距离,否则,δ
i
表示x
i
和所有局部密度大于x
i
的数据中距离x
i
最小的数据之间的距离;在此定义一种新的数据点之间的互邻度度量和样本分配策略,然后进一步提出了基于网格筛选、自定义中心决策值和互邻度的密度峰值网格聚类算法,首先,计算样本的局部密度,并使用k个最近邻居找到密度峰值,并将密度峰值的k个最近邻分配给它们相应的簇,然后,它根据相互相邻度为所有分配的数据点找到最接近的未分配数据点,并将未分配数据点分配给数据点所在的簇,直到完成聚类过程,结合KNN局部密度,对于数据集D,KNN局部密度定义为:其中,distans(x
i
,x
j
)为数据x
i
和x
j
的欧几里得距离,k为相邻点的数量,knn(i)为x
i
的k邻近集,2
·
k为ρ
i
的归一化参数,KNN局部密度分为两部分:∑
j=knn(i)
distans(x
i
,x
j
)2为x
i
的离群度,∑
j=knn(i)
∑
v=knn(j)
distans(x
v
,x
...
【专利技术属性】
技术研发人员:刘浩,李洪安,魏建勇,
申请(专利权)人:北京力尊信通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。