一种基于多视图集成学习的金融交易风险评估方法及设备技术

技术编号：28790342 阅读：26 留言：0更新日期：2021-06-09 11:27

本发明专利技术涉及金融风险评估算法领域，尤其涉及一种基于多视图集成学习的金融交易风险评估方法，目的是对金融交易数据(如信用贷款、在线支付)进行信息挖掘，继而对存在风险的交易记录进行识别的金融交易风险评估方法，包括四个步骤：S1：先决条件处理；约定判断标准，而后选择原始样本数据，根据判断标准对样本数据进行初步筛选；S2：基于聚类的视图划分；S3：基于特征分布的视图权重计算；对视图集合内的每一个视图分配决策权重；S4：基于决策树的集成学习算法的集成学习；结合判断标准，得到该视图的基于判断标准下的类别标签。的基于判断标准下的类别标签。的基于判断标准下的类别标签。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多视图集成学习的金融交易风险评估方法及设备

[0001]本专利技术涉及金融风险评估算法领域，尤其涉及一种基于多视图集成学习的金融交易风险评估方法。

技术介绍

[0002]在金融风险防控领域中，相关研究已经提出了许多风险评估和欺诈检测方法。这些方法可以分为三类，包括基于专业知识的风控方法、基于统计学的风控方法和基于机器学习的风控方法。
[0003]1.基于专业知识的风控方法
[0004]早先，金融领域中的风险防控主要依靠金融机构或监管机构的专业人员的主观判断，风险防控的准确率受到专业人员的知识水平、业务能力和从业经验的影响。
[0005]2.基于统计学的风控方法
[0006]随着数据科学的发展，开始出现了基于统计学的金融风险防控方法。Emekter等人使用Logistic回归分析特征和违约概率之间的关系，并采用实际的违约风险来衡量分析结果的可靠性。统计学方法是以理论为驱动的，强调数据分布假设、模型推导、参数推断和可解释性，这使得统计学方法在金融风险防控领域有着广泛的应用。但也正因为如此，这些统计学方法往往只能分析特征和金融风险之间的简单关系，不足以揭示不同变量之间可能存在的复杂非线性关系。
[0007]3.基于机器学习的风控方法
[0008]随着机器学习在各个领域大放异彩，金融风险防控领域开始探索机器学习方法预测信贷违约、信用卡欺诈等应用。Sahil等人使用了包括逻辑回归、支持向量机、随机森林、梯度提升树等十种有监督的机器学习算法检测交易欺诈。Serrano/>‑
Cinca等人使用决策树揭示了P2P借贷中特征和风险评级之间的非线性关系。Alex等人提出了一种改进的贝叶斯网络分类器，将其应用到信用卡欺诈检测任务中。相关研究表明，基于机器学习的方法具有较高的准确率。然而，现有的这些方法往往在处理数据特征时，将其当成单一的视图进行看待，无法高效利用各个特征背后的业务关联性，因此模型的预测性能仍然存在较大的提升空间。

技术实现思路

[0009]针对现有技术中所存在的不足，本专利技术提供了一种基于多视图集成学习的金融交易风险评估方法，目的是对金融交易数据(如信用贷款、在线支付)进行信息挖掘，继而对存在风险的交易记录进行识别的金融交易风险评估方法。
[0010]根据本专利技术的实施例，一种基于多视图集成学习的金融交易风险评估方法，包括下述步骤：
[0011]S1：先决条件处理；约定判断标准，而后选择原始样本数据，根据判断标准对样本数据进行初步筛选；
[0012]S2：基于聚类的视图划分；从筛选后的样本数据中进行特征采集，将采集到的所有特征视为一个数据集，预设视图划分数，通过视图划分数确定初始聚类中心的个数，依次计算原始特征集合中的每个特征到聚类中心的距离，并将其分配到距离最小的聚类中心所对应的类集合中，并不断更新类集合的聚类中心，而后输出聚类后的特征子集的集合可以得到一个视图集合；
[0013]S3：基于特征分布的视图权重计算；对视图集合内的每一个视图分配决策权重；
[0014]S4：基于决策树的集成学习算法的集成学习；根据S2中得到的特征子集的集合，将原始的特征空间映射为一组特征子空间，然后使用基于决策树的集成学习算法作为每个特征子集对应的视图的训练的基分类器，使用加权投票的方式对所有的基分类器的分类概率进行加和汇总，结合判断标准，得到该视图的基于判断标准下的类别标签。
[0015]优选的，在S2中，将原始特征集合记为F，F＝{f1,f2,f3,.....f.
N
}，预设的视图划分数为k，预设的视图划分数k与输出聚类后的特征子集的数量相对应，具体的视图划分方法流程如下：
[0016]①
：随机选择k个特征作为初始的聚类中心；
[0017]C＝{c
i
|c
i
∈F}，(|C|＝k)
ꢀꢀ
(1)
[0018]式(1)中：C
‑
初始的聚类中心的集合、c
i
‑
初始的聚类中心、F
‑
原始特征集合、k
‑
预设的视图划分数；
[0019]②
：对于原始特征集合F内的某个特征f
i
，按公式(2)计算f
i
到k个初始的聚类中心的距离d，并将其分配到距离最小的聚类中心所对应的类集合F
t
中，依次计算原始特征集合F内的每个特征；
[0020]d＝‖f
i
‑
c
i
‖2，(c
i
∈C)
ꢀꢀ
(2)
[0021]式(2)中：d
‑
f
i
到初始的聚类中心的距离、f
i
‑
数据集中的某个特征、c
i
‑
初始的聚类中心、C
‑
初始的聚类中心的集合；
[0022]③
：对于每一个类集合F
t
，按照公式(3)更新它的聚类中心；
[0023][0024]式(3)中：F
t
‑
类集合、f
‑
类集合F
t
中的某个特征；
[0025]④
：重复步骤
②‑③
，直至没有特征f
i
再重新分配给不同的聚类中心c
i
，输出聚类后的特征子集的集合特征子集的集合内的每个特征子集对应一个视图，即得出一个划分完成的视图集V，V＝{V1,V2,V3,......V
L
}(L＝k)。
[0026]优选的，在S3中：
[0027]①
：对于视图集V中的任意一个视图V
i
，使用权重分量ω
n
描述特征数目对视图V
i
权重的影响，ω
n
的计算方法如式(4)所示：
[0028][0029]式(4)中：|F
i
|
‑
特征子集F
i
中的特征数目、|F|
‑
原始特征集合中的特征数目；
[0030]②
：继续使用权重分量ω
p
描述特征相关性对视图V
i
权重的影响，ω
n
的计算公式如式(5)所示：
[0031][0032]式(5)中：
‑
特征子集F
i
中的每个特征f
i
的特征距离均值；
[0033]其中的计算方法如式(6)所示：
[0034][0035]式(6)中：f
m
,f
n
‑
特征子集F
i
中的两个不同特征；
[0036]③
：将得到的两个权重分量ω
p
与ω
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多视图集成学习的金融交易风险评估方法，其特征在于，包括下述步骤：S1：先决条件处理；约定判断标准，而后选择原始样本数据，根据判断标准对样本数据进行初步筛选；S2：基于聚类的视图划分；从筛选后的样本数据中进行特征采集，将采集到的所有特征视为一个数据集，预设视图划分数，通过视图划分数确定初始聚类中心的个数，依次计算原始特征集合中的每个特征到聚类中心的距离，并将其分配到距离最小的聚类中心所对应的类集合中，并不断更新类集合的聚类中心，而后输出聚类后的特征子集的集合可以得到一个视图集合；S3：基于特征分布的视图权重计算；对视图集合内的每一个视图分配决策权重；S4：基于决策树的集成学习算法的集成学习；根据S2中得到的特征子集的集合，将原始的特征空间映射为一组特征子空间，然后使用基于决策树的集成学习算法作为每个特征子集对应的视图的训练的基分类器，使用加权投票的方式对所有的基分类器的分类概率进行加和汇总，结合判断标准，得到该视图的基于判断标准下的类别标签。2.根据权利要求1所述的一种基于多视图集成学习的金融交易风险评估方法，其特征在于，在S2中，将原始特征集合记为F，F＝{f1,f2,f3,.....f.
N
}，预设的视图划分数为k，预设的视图划分数k与输出聚类后的特征子集的数量相对应，具体的视图划分方法流程如下：
①
：随机选择k个特征作为初始的聚类中心；C＝{c
i
|c
i
∈F}，(|C|＝k)
ꢀꢀꢀꢀ
(1)式(1)中：C
‑
初始的聚类中心的集合、c
i
‑
初始的聚类中心、F
‑
原始特征集合、k
‑
预设的视图划分数；
②
：对于原始特征集合F内的某个特征f
i
，按公式(2)计算f
i
到k个初始的聚类中心的距离d，并将其分配到距离最小的聚类中心所对应的类集合F
t
中，依次计算原始特征集合F内的每个特征；d＝||f
i
‑
c
i
||2，(c
i
∈C)
ꢀꢀꢀꢀ
(2)式(2)中：d
‑
f
i
到初始的聚类中心的距离、f
i
‑
数据集中的某个特征、c
i
‑
初始的聚类中心、C
‑
初始的聚类中心的集合；
③
：对于每一个类集合F
t
，按照公式(3)更新它的聚类中心；式(3)中：F
t
‑
类集合、f
‑
类集合F
t
中的某个特征；
④
：重复步骤
②‑③
，直至没有特征f
i
再重新分配给不同的聚类中心c
i
，输出聚类后的特征子集的集合特征子集的集合内的每个特征子集对应一个视图，即得出一个划分完成的视图集V，V＝{V1,V2,V3,......V
L
}(L＝k)。3.根...

【专利技术属性】
技术研发人员：高英，曾行，肖皓朗，梁凌睿，林菁，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人