提取降维特征的方法和装置制造方法及图纸

技术编号:22056723 阅读:61 留言:0更新日期:2019-09-07 15:46
本申请公开了一种提取降维特征的方法和装置。该方法包括:从训练数据中提取预设场景下的特征重要性数值,其中,训练数据为有标签的结构化数据,特征重要性数值用于指示该特征对标签中标识的结果的影响程度;将特征重要性数值进行归一化处理得到特征重要性向量;将特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行稀疏自编码网络中,以对无标签的结构化数据进行降维处理。通过本申请,解决了相关技术中有标签数据很难获得,而从无标签数据中提取有效的信息来提升该场景的模型预测性能的现有方案均无法满足当下需求的技术问题。

A Method and Device for Extracting Dimensional Reduction Features

【技术实现步骤摘要】
提取降维特征的方法和装置
本申请涉及特征提取领域,具体而言,涉及一种提取降维特征的方法和装置。
技术介绍
在机器学习建模场景中,会遇到标签数据缺乏,但是无标签数据量大的情况。这种情况下,如果仅仅利用少量的有标签数据进行建模,往往得不到好的预测结果。例如,在金融消费信贷领域,订单套现情况常有发生,但是这类标签数据的获取,不管从时间成本还是人力成本来讲,需要的成本都比较高。目前应对这种样本少的方法是,利用样本生成手段以增加样本量,但是这种方法在建模的过程中,容易造成过拟合的现象。在上述有标签数据很难获得的情况下,可以从无标签数据中提取有效的信息来提升该场景的模型预测性能,即将无标签数据的所携带的信息传递到有标签数据上,以增加模型预测的性能。具体的,采用上述处理方式的现有技术大致为以下两种:其一、皮尔逊相关系数。即计算特征之间的皮尔逊相关系数,然后按照相关系数的大小去除相似度比较高的特征以达到降维的目的。但是该方法存在特征维度高时,计算复杂度也较高,以及只能在原始特征上进行特征筛选,不能生成新的特征的技术问题。其二、主成分析。它是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主本文档来自技高网...

【技术保护点】
1.一种提取降维特征的方法,其特征在于,包括:从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;将所述特征重要性数值进行归一化处理得到特征重要性向量;将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。

【技术特征摘要】
1.一种提取降维特征的方法,其特征在于,包括:从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;将所述特征重要性数值进行归一化处理得到特征重要性向量;将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。2.根据权利要求1所述的方法,其特征在于,从训练数据中提取预设场景下的特征重要性数值包括:对所述有标签的结构化数据进行预处理,以组成训练数据;将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。3.根据权利要求1所述的方法,其特征在于,将所述特征重要性数值进行归一化处理得到特征重要性向量包括:对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值;确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征;依据长尾分布定律,重新确定所述目标特征的特征重要性数值;对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。4.根据权利要求1所述的方法,其特征在于,将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重包括:确定所述稀疏自编码网络对应的目标表达式和稀疏系数;基于所述特征重要性向量和所述稀疏系数,对所述目标表达式采用梯度下降法进行优化处理,确定所述稀疏自编码网络的基向量和激活系数。5.根据权利要求4所述的方法,其特征在于,所述目标表达式为:其中,pl∈P=[p1,p2,p3...pl]T,为归一化后的特征重要性权重,为无标签的结构化数据集合,i表示样本索引,l...

【专利技术属性】
技术研发人员:高树立
申请(专利权)人:北京互金新融科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1