当前位置: 首页 > 专利查询>苏州大学专利>正文

一种半监督特征提取方法及用户信用风险评估方法技术

技术编号:34321520 阅读:60 留言:0更新日期:2022-07-31 00:17
本发明专利技术涉及一种半监督特征提取方法及用户信用风险评估方法。先对带标签的样本生成约束对集合;计算每个类别的假设间隔,以得到每个类别的特征间隔分数;再计算每个类别的特征约束分数,利用特征间隔分数和特征约束分数确定每个类别特征得分,选择得分最低类别的特征生成目标特征子集;再计算剩余每个类别的特征并到目标特征子集时的特征约束分数,以计算剩余每个类别的特征得分,选择得分最低类别的特征更新目标特征子集,不断重复计算直至目标特征子集中的特征类别个数等于设定阈值。本发明专利技术通过迭代计算特征约束分数,并且在迭代中考虑特征间隔分数,充分考虑到特征之间的关联性和特征的判别性,使得所提取出的特征更具代表性、更具判别能力。更具判别能力。更具判别能力。

【技术实现步骤摘要】
一种半监督特征提取方法及用户信用风险评估方法


[0001]本专利技术涉及计算机
,尤其是指一种半监督特征提取方法及用户信用风险评估方法。

技术介绍

[0002]特征提取是机器学习、数据挖掘、模式识别等各种领域的研究内容之一。从是否使用监督信息的角度,可以将其分为监督特征提取、半监督特征提取、无监督特征提取。在实际处理过程中,大量数据都是没有标签的,如果要对所有的数据都添加标签,费事费力,成本高,代价大。但若是只采用无监督的方式学习,虽然学习速度很快,则可能导致提取的特征产生误差,影响性能。半监督特征提取方式可以同时处理有标签数据和无标签数据。基于此,会选择花费少量代价给部分数据贴上标签,利用已有标签的数据增强分类效果或特征提取准确率。针对半监督特征提取,基于约束评分的特征选择方法已经被提出,该方法使用成对约束来评估特征的重要性,但该方法没有考虑特征之间的关联性,同时也没有完全考虑特征的判别能力。
[0003]针对上述问题也衍生出一些改进方法,例如Csimba算法利用约束对计算了假设间隔,将其作为特征的权重进行特征选择,选择权重较大本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种半监督特征提取方法,其特征在于:包括1)获取样本数据集,对每个样本的特征进行数值化,得到不同类别的特征集合;根据所述样本数据集建立样本对,并对有标签的样本对建立约束对集合,所述约束对集合包括必须连接约束对集合和不能连接约束对集合;2)利用所述不能连接约束对计算每个类别内的假设间隔,对所述每个类别内的假设间隔引入设定参数计算每个类别的特征间隔分数;3)根据预设的每个样本对在必须连接约束和不能连接约束下的权重值,计算每个类别的特征约束分数,根据预设的特征约束分数和特征间隔分数的权值,对所述每个类别的特征约束分数和特征间隔分数赋予权值,对赋予权值的特征约束分数和特征间隔分数求和,得到每个类别的特征得分;4)选择特征得分最小的特征类别,将该类别下的特征作为目标特征子集A,利用剩余其他类别的特征构建候选特征子集5)根据预设的每个样本对在必须连接约束和不能连接约束下的权重值,分别计算所述候选特征子集中每一个类别的特征合并到所述目标特征子集A时,所述候选特征子集中每一个类别的特征约束分数,再根据预设的特征约束分数和特征间隔分数的权值,计算所述候选特征子集中每一个类别的特征得分;6)选择所述候选特征子集中特征得分最小的特征类别,将所选类别下的特征合并到所述目标特征子集A中,更新目标特征子集A,并将所选类别下的特征从所述候选特征子集中剔除,更新候选特征子集7)判断更新后的目标特征子集A中的特征类别个数是否等于预设阈值,若等于则输出所述更新后的目标特征子集A,若不等于,则利用更新后的目标特征子集A和候选特征子集返回执行步骤5)。2.根据权利要求1所述的半监督特征提取方法,其特征在于:所述对有标签的样本对建立约束对集合包括:在所有样本对(x
i
,x
j
)中提取有标签l的样本对作为约束对,x
i
∈X,x
j
∈X,i=1,2,

,n,j=1,2,

,n,X={x1,x2,...,x
n
}为样本数据集,l=1,2,

,c,c为类别总数;提取所有约束对中样本标签l相同的约束对构建必须连接约束对集合:M={(x
i
,x
j
)|lx
i
=lx
j
};提取所有约束对中样本标签l不同的约束对构建不能连接约束对集合:C={(x
i
,x
j
)|lx
i
≠lx
j
}。3.根据权利要求2所述的半监督特征提取方法,其特征在于:所述利用不能连接约束对计算每个类别内的假设间隔包括:寻找每个不能连接约束对(x
i
,x
j
)的最近邻样本H(x
i
)和H(x
j
),计算在第k个类别下每个约束对中的样本x
i
和H(x
i
)、H(x
j
)的样本间隔差ρ
k
:ρ
k
=|x
ik

H(x
jk
)|

|x
ik

H(x
ik
)|,k=1,..,d式中,x
ik
为样本x
i
的第k个类别的特征,H(x
ik
)和H(x
jk
)分别为样本H(x
i
)和H(x
j
)的第k个类别的特征,d为特征类别的个数;
对第k个类别下所有约束对得到的样本间隔差ρ
k
求和,得到第k个类别的间隔差Z
k
:式中,ρ
sk
为第s个约束对下的ρ
k
,S为不能连接约束对的总个数;将大于0的Z
k
作为第k个类别的特征间隔差,将小于0的Z
k
替换成0值作为第k个类别的特征间隔差,根据每个类别的特征间隔差生成共d个类别的特征间隔差集合(z)
+
:(z)
+
=[max(z1,0),...,max(z
d
,0)]
T
计算第k个类别的特征间隔差,基于所有类别特征间隔差下的假设间隔,得到第k个类别的假设间隔w
k
:式中,||(z)
+
||2代表(z)
+
的L2范数。4.根据权利要求1所述的半监督特征提取方法,其特征在于:所述每个类别的特征得分的计算公式为:式中,J
k
为第k个类别的特征得分,为第k个类别的特征约束分数,f
k
为第k个类别的特征向量,L
M
为必须连接约束对集合的拉普拉斯矩阵,即所有样本对在必须连接...

【专利技术属性】
技术研发人员:张莉陈心怡赵雷王邦军
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1