【技术实现步骤摘要】
一种非法集资风险预测模型的训练方法、装置及设备
[0001]本申请涉及机器学习
,特别涉及一种非法集资风险预测模型的训练方法、装置及设备。
技术介绍
[0002]随机科技的不断发展,非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。因此,如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险,对监管部门、企业合作伙伴、投资者有重要作用。
[0003]现有技术中,利用半监督机器学习方法训练一个预测模型来预测企业是否存在非法集资风险时,主要是基于成对约束的思想保留任意两个样本点之间的平滑性。然而,平滑性在本质上可以是点态的,即平滑性可以发生在“任何地方”,而不仅仅是两点之间,因此利用这种方式训练的预测模型无法达到较好的学习效果,使得对企业非法集资风险预测的准确性较低。
[0004]因此,业内亟需一种可以解决上述技术问题的技术方案。
技术实现思路
[0005]本说明书实施例提供了一种非法集 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种非法集资风险预测模型的训练方法,其特征在于,包括:获取与企业集资风险相关的训练数据集;其中,所述训练数据集中包括有标签样本和无标签样本;所述有标签样本的标签根据是否存在非法集资风险确定;计算所述训练数据集中每个样本的局部密度值和聚类隶属度;根据每个样本的局部密度和聚类隶属度以及预设分类器的判别函数,构造点态流形正则化约束项;其中,所述点态流形正则化约束项用于约束每个样本与其近邻样本之间的关系;基于所述点态流形正则化约束项,确定所述预设分类器的损失函数;基于所述训练数据集和所述损失函数对所述预设分类器进行训练,获得非法集资风险预测模型。2.根据权利要求1所述的方法,其特征在于,所述获取与企业非法集资风险相关的训练数据集前,包括:获取与企业集资风险相关的特征数据;其中,所述特征数据中包括有标签特征数据和无标签特征数据;对所述特征数据进行预处理,获得与企业集资风险相关的训练数据集;其中,所述预处理包括缺失值处理、特征工程处理。3.根据权利要求1所述的方法,其特征在于,所述计算所述训练数据集中每个样本的局部密度值和聚类隶属度,包括:确定第一样本的近邻样本集;计算所述第一样本与对应近邻样本集中每个样本的距离之和,获得所述第一样本的近邻距离和;根据所述第一样本的近邻距离和,确定所述训练数据集中所有样本的近邻距离总和;基于所述第一样本的近邻距离和和所有样本的近邻距离总和,确定所述第一样本的局部密度值;对所述训练数据集中样本进行聚类,获得第一类聚簇和第二类聚簇;计算所述第一样本属于所述第一类聚簇的第一概率和属于所述第二类聚簇的第二概率;将所述第一概率和所述第二概率中最大值作为所述第一样本的聚类隶属度。4.根据权利要求3所述的方法,其特征在于,按照以下公式确定所述第一样本的局部密度值:其中,d(x
i
)表示样本x
i
的局部密度值,N(x
i
)表示样本x
i
的近邻样本集,x
j
表示样本x
i
的近邻样本集中一个样本,d(x
i
,x
j
)表示样本x
i
与样本x
j
之间的距离,N(x
s
)表示样本x
s
的近邻样本集,x
t
表示样本x
s
的近邻样本集中一个样本,d(x
s
,x
t
)表示样本x
s
与样本x
t
之间的距离,n表示样本总数,s表示序号。5.根据权利要求1所述的方法,其特征在于,所述根据每个样本的局部密度和聚类隶属
度以及预设分类器的判别函数,构造点态流形正则化约束项,包括:根据每个样本的局部密度和聚类隶属度,获得每个样本的样本权重;基于所有样本的样本权重和预设分类器的判别函数,构造点态流形正则化约束项。6.根据权利要求5所述的方法,其特征在于,按照以下公式计算每个样本的样本权重:其中,p(x
i
)表示样本x
i
的权重,N(x
i
)表示样本x
i
的近邻样本集,x
j
表示样本x
i
的近邻样本集中一个样本,d(x
i
,x
j
)表示样本x
i
与样本x
j
技术研发人员:陈李龙,王娜,强锋,郭宏,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。