【技术实现步骤摘要】
一种基于评分卡模型的诈骗网站识别方法及装置
[0001]本专利技术涉及诈骗网站识别领域,尤其涉及一种基于评分卡模型的诈骗网站识别方法及装置
。
技术介绍
[0002]回归一种是基于已有数据对新的数据进行预测的技术,例如应用于诈骗网站识别
。
线性回归能够用一条直线准确地描述数据之间的关系,这样当有新数据出现时,就可以预测一个简单的值
。
线性回归模型有很好的可解释性,可以从权重
W
直接看出每个特征对结果的影响程度
。
[0003]以简单的一元线性回归
(
一元代表只有一个未知自变量
)
为例
。
在回归问题中,均方误差是回归任务中最常用的性能度量
。
虽然拟合过程中必然会出现误差,但是也希望最终得出的模型能够最大程度地拟合所有数据点,也就是希望误差能够最小化
。
这里的误差,习惯称之为“残差”,也就是真实值和预测值之间的差值
。
[0004]逻辑回归模型r/>(Logist本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于评分卡模型的诈骗网站识别方法,其特征在于,该方法包括以下步骤:
(1)
获取网站数据并进行预处理;
(2)
根据数据预处理得到的结果,进行数据分箱,计算权重证据
WOE
编码以及计算信息价值
IV
筛选网站数据的特征变量;
(3)
基于逻辑回归构建评分卡模型,并基于方差膨胀因子
VIF
方法进行的因子独立性检验筛除存在多重共线性的变量,评分卡公式如下:
score
=
A
‑
Bln(odds)
=
β
T
X
T
其中,
score
表示模型计算得到的评分,评分越小,目标网站越可能为诈骗网站,
odds
表示
p
与1‑
p
的比值,
p
代表为诈骗网站的概率,1‑
p
代表为非诈骗网站的概率;
β
表示逻辑回归系数,
X
表示转化后的
WOE
值,
T
表示转置;
(4)
基于构建的评分卡模型,以目标网站数据转化后的
WOE
值作为输入,得到目标网站评分,进而判断目标网站是否为诈骗网站
。2.
根据权利要求1所述的一种基于评分卡模型的诈骗网站识别方法,其特征在于,步骤
(1)
中,预处理过程包括缺失值和异常值的处理
。3.
根据权利要求1所述的一种基于评分卡模型的诈骗网站识别方法,其特征在于,权重证据
WOE
计算过程如下:网站数据在经过了分箱处理后,所有的变量变为离散型,需要
WOE
方式编码,
WOE
值公式为:其中,
p
y1
指的是第
i
个分组中坏样本数
Bad
i
占所有坏样本数量
Bad
T
的比例,
p
y0
指的是第
i
个分组中好样本数
Good
i
占所有好样本数量
Good
T
的比例
。WOE
i
值实际表示的是当前第
i
组中的坏样本和好样本占所有坏样本和所有好样本的比值差异
。4.
根据权利要求1所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。