【技术实现步骤摘要】
数据降维方法及装置
[0001]本专利技术涉及数据处理
,特别是涉及一种数据降维方法及装置。
技术介绍
[0002]随着经济的迅速发展,各类企业激增。企业在不断发展的过程中,企业的贷款量也随之增长,与此同时,银行的不良贷款也在逐步增长。为了完善银行风险管理体系,需要对银行往来的数据流量进行分析,及时识别出具有不良贷款的风险企业。
[0003]伴随着大数据时代的不断发展,银行数据流量激增,数据维度也在不断增高,而数据维度过高往往会影响到银行数据分析的有效率。经研究发现,在对数据分析前先对数据进行降维,再将降维后的数据用于数据分类或聚类能很好的避免“维度灾难”问题。
[0004]但是,现有技术中对数据进行降维时往往忽略了数据间的非线性特征,从而影响数据分类的正确率,威胁银行的数据安全。
技术实现思路
[0005]有鉴于此,本专利技术提供一种数据降维方法,通过该方法,将数据映射到高维空间再进行维度约简,使得降维后数据达到方差最大化的同时最大限度地保持数据在原始样本空间的局部和非局部特性。 />[0006]本专本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据降维方法,其特征在于,包括:获取各个需要进行数据降维的数据信息;基于各个所述数据信息,构建非局部相似性度量矩阵、局部相似性度量矩阵以及高维度数据矩阵;根据所述高维度数据矩阵、所述非局部相似性度量矩阵和所述局部相似性度量矩阵,构建降维目标函数,求解所述降维目标函数,得到投影矩阵;将每个所述数据信息和所述投影矩阵代入预先设置的降维公式中,得到该数据信息进行降维后的降维数据信息。2.根据权利要求1所述的方法,其特征在于,所述基于各个所述数据信息,构建高维度数据矩阵,包括:基于各个所述数据信息,构建各个核函数元素;将每个所述核函数元素对应的各个数据信息代入预设的径向基核函数中,计算得到该核函数元素对应的高维度数据,各个所述高维度数据组成高维度数据矩阵。3.根据权利要求1所述的方法,其特征在于,所述基于各个所述数据信息,构建非局部相似性度量矩阵和局部相似性度量矩阵,包括:基于各个所述数据信息,构建各个相似性度量元素;确定每个所述相似度量元素对应的各个数据信息的标签信息和位置信息,并根据该相似度量元素对应的各个数据信息的标签信息和位置信息,确定该相似度量元素的局部相似性度量值和非局部相似性度量值;各个所述局部相似性度量值组成局部相似性度量矩阵,各个所述非局部相似性度量值组成非局部相似性度量矩阵。4.根据权利要求3所述的方法,其特征在于,所述相似度量元素对应的各个数据信息包括第一数据信息和第二数据信息,所述根据该相似度量元素对应的各个数据信息的标签信息和位置信息,确定该相似度量元素的局部相似性度量值和非局部相似性度量值,包括:若所述相似度量元素对应的第一数据信息的标签信息和第二数据信息的标签信息不相同,并且该第一数据信息的位置信息和该第二数据信息的位置信息满足预设的位置条件,则该相似度量元素的非局部相似性度量值为1,否则该相似度量元素的非局部相似性度量值为0;若所述相似度量元素对应的第一数据信息的标签信息和第二数据信息的标签信息相同,并且该第一数据信息的位置信息和该第二数据信息的位置信息不满足所述位置条件,则该相似度量元素的局部相似性度量值为1,否则该相似度量元素的局部相似性度量值为0。5.根据权利要求1所述的方法,其特征在于,还包括:确定预设的网络模型为训练模型,基于各个所述降维数据信息,对所述网络模型进行训练,得到已训模型;若所述已训模型未满足预设的停止迭代条件,则将所述已训模型作为训练模型,并基于各个所述降维数据信息,重新对所述训练模型进行训练,直至得到的已训模型满足所述停止迭代条件,则确定所述已训模型为分类模型。6....
【专利技术属性】
技术研发人员:光毓,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。