【技术实现步骤摘要】
基于自编码器的自适应目标分类方法、系统及电子设备
[0001]本专利技术涉及计算机信息处理
,具体而言,涉及一种基于自编码器的自适应目标分类方法、系统、电子设备及计算机可读介质。
技术介绍
[0002]随着数据维度的丰富,不同目标在数据上的分布也愈发复杂多样,单一模型很难准确的覆盖到所有模式,因此常常利用的数据特征进行分组建模,比如:根据某一属性指标,将目标划分为不同的子群体类别,在各个子群体类别上单独建模,可以提高模型对目标的识别的准确率。
[0003]当前在划分群体类别时,通常是根据专家经验,对某一属性指标,例如籍贯、现居地、网络名称、会员等级或多个指标的组合,例如籍贯+现居地,划分出多个区间,每个区间内的群体可以作为一个群体类别,这样可以得到多个群体类别。群体类别划分的标准是利用统计工具、数据挖掘和机器学习技术得到的。最常用的一种方法是进行聚类分析。聚类分析可以采用层次聚类、k
‑
Means或模糊c均值聚类。无论采用何种算法,聚类都是基于目标的数据特征。因此,具有不同统计学特征或行为特征的目标能够被划分为不同的细分的群体类别。
[0004]但是使用单一指标对群体类别进行划分不够精细,群体类别内仍包含较多中分布模式,所述多个指标的组合一般只能做到2个或者3个指标的组合,精度仍然不足;此外群体类别的划分需要依赖专家经验,所谓经验方法主要是指由主观经验根据目标的一些数据特征,建立目标的群体类别分类的原则和标准,细分同质群体类别。这种方法虽然从直觉上看似乎是合理的,但并不能保证群 ...
【技术保护点】
【技术特征摘要】
1.一种基于自编码器的自适应目标分类方法,其特征在于,包括:按照预设策略从采集的多个目标的目标数据中选择数据样本而得到数据样本集,从所述数据样本集提取特征数据形成目标特征参数,以及,利用所述目标特征参数生成待识别的目标数据的输入特征向量;使用自编码器模型对所述输入特征向量进行分类编码以及解码,当解码得到的输出特征向量与所述输入特征向量满足预设条件时,从所述自编码器模型中获取目标特征向量;将所述目标特征向量输入至训练后的分类器中,输出待识别的目标数据对应的目标所属的群体类别。2.如权利要求1所述的方法,其特征在于,使用自编码器模型对所述输入特征向量进行分类编码以及解码,当解码得到的输出特征向量与所述输入特征向量满足预设条件时,从所述自编码器模型中获取目标特征向量,具体包括:对所述输入特征向量进行编码,生成隐藏层的中间特征向量;对所述隐藏层的中间特征向量进行解码,得到输出特征向量;以及,在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时,确定所述隐藏层的中间特征向量为目标特征向量。3.如权利要求2所述的方法,其特征在于,还包括:根据所述输入特征向量获取权值矩阵、第一偏置向量以及第二偏置向量;其中,预先设置所述隐藏层的中间特征向量的节点数m,所述权值矩阵是n
×
m的矩阵且n>m,n表示输入特征向量的维度;对所述输入特征向量进行编码,生成隐藏层的中间特征向量;对所述隐藏层的中间特征向量进行解码,得到输出特征向量;以及,在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时,确定所述隐藏层的中间特征向量为目标特征向量,具体包括:根据所述输入特征向量、权值矩阵以及第一偏置向量确定中间特征向量:h=f1(x)=σ1(W1x+b1),其中,h表示中间特征向量,x表示输入特征向量;W1x表示x到h的权值矩阵,σ1表示第一激活函数,b1表示第一偏置向量;根据中间特征向量、权值矩阵的逆矩阵以及第二偏置向量确定输出特征向量:x
R
=f2(h)=σ2(W2h+b2),其中,x
R
即x
R
表示输出特征向量,h表示中间特征向量,W2h表示h到x
R
的权值矩阵且W2h为W1x权值矩阵对应的逆矩阵,σ2表示第二激活函数,b2表示第二偏置向量;计算输出特征向量与输入特征向量的损失:MinimizeLoss=dist(x,x
R
),其中,dist为二者的距离度量函数;判断步骤:判断损失是否小于预设阈值;如果是,则将中间特征向量确定为目标特征向量并输出;如果否则对所述权值矩阵、第一偏置向量以及第二偏置向量重新赋值,重新确定输出特征向量,重新计算输出特征向量与输入特征向量的损失后执行所述判断步骤,直到损失小于所述预设阈值为止。4.如权利要求3所述的方法,其特征在于,还包括:中间特征向量的每个元素都是0
‑
1范围内的小数;对于每个待识别的目标数据,将所述目标数据的输入特征向量确定的中间特征向量中值最大的元素置为1,其他元素置...
【专利技术属性】
技术研发人员:宋孟楠,苏绥绥,
申请(专利权)人:上海淇玥信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。