基于自编码器的自适应目标分类方法、系统及电子设备技术方案

技术编号:34738287 阅读:51 留言:0更新日期:2022-08-31 18:29
本发明专利技术涉及一种基于自编码器的自适应目标分类方法、系统、电子设备及计算机可读介质。该方法包括:按照预设策略从采集的多个目标的目标数据中选择数据样本而得到数据样本集,根据所述数据样本集生成待识别的目标数据的输入特征向量;使用自编码器模型对输入特征向量进行分类编码以及解码,当解码得到的输出特征向量与输入特征向量满足预设条件时,从所述自编码器模型中获取目标特征向量;将目标特征向量输入至训练后的分类器中,输出待识别的目标数据对应目标所属的群体类别。由此直接利用目标数据精细准确识别目标所在群体类别,提高复杂数据和特定数据的识别准确率,无需依赖专家经验介入、提高后续所提供的服务的准确性和安全性。全性。全性。

【技术实现步骤摘要】
基于自编码器的自适应目标分类方法、系统及电子设备


[0001]本专利技术涉及计算机信息处理
,具体而言,涉及一种基于自编码器的自适应目标分类方法、系统、电子设备及计算机可读介质。

技术介绍

[0002]随着数据维度的丰富,不同目标在数据上的分布也愈发复杂多样,单一模型很难准确的覆盖到所有模式,因此常常利用的数据特征进行分组建模,比如:根据某一属性指标,将目标划分为不同的子群体类别,在各个子群体类别上单独建模,可以提高模型对目标的识别的准确率。
[0003]当前在划分群体类别时,通常是根据专家经验,对某一属性指标,例如籍贯、现居地、网络名称、会员等级或多个指标的组合,例如籍贯+现居地,划分出多个区间,每个区间内的群体可以作为一个群体类别,这样可以得到多个群体类别。群体类别划分的标准是利用统计工具、数据挖掘和机器学习技术得到的。最常用的一种方法是进行聚类分析。聚类分析可以采用层次聚类、k

Means或模糊c均值聚类。无论采用何种算法,聚类都是基于目标的数据特征。因此,具有不同统计学特征或行为特征的目标能够被划分为不同的细分的群体类别。
[0004]但是使用单一指标对群体类别进行划分不够精细,群体类别内仍包含较多中分布模式,所述多个指标的组合一般只能做到2个或者3个指标的组合,精度仍然不足;此外群体类别的划分需要依赖专家经验,所谓经验方法主要是指由主观经验根据目标的一些数据特征,建立目标的群体类别分类的原则和标准,细分同质群体类别。这种方法虽然从直觉上看似乎是合理的,但并不能保证群体类别的划分能提高模型性能、也同样不能提升对海量多维度数据所对应的目标识别其所属群体类别的准确性。

技术实现思路

[0005]有鉴于此,本专利技术主要目的在于提出一种基于自编码器的自适应目标分类方法、系统、电子设备及计算机可读介质,以期解决或部分解决如何提高目标数据特征中复杂数据和特定数据的识别准确率的技术问题,进而实现更准确有效地自动确定目标所属群体类别的技术问题,从而保证了目标识别的准确性和类别划分的有效性、准确性。
[0006]为了解决上述技术问题,本专利技术第一方面提出一种基于自编码器的自适应目标分类方法,包括:按照预设策略从采集的多个目标的目标数据中选择数据样本而得到数据样本集,从所述数据样本集提取特征数据形成目标特征参数,以及,利用所述目标特征参数生成待识别的目标数据的输入特征向量;使用自编码器模型对所述输入特征向量进行分类编码以及解码,当解码得到的输出特征向量与所述输入特征向量满足预设条件时,从所述自编码器模型中获取目标特征向量;将所述目标特征向量输入至训练后的分类器中,输出待识别的目标数据对应的目标所属的群体类别。
[0007]根据本专利技术一种优选实施方式,使用自编码器模型对所述输入特征向量进行分类
编码以及解码,当解码得到的输出特征向量与所述输入特征向量满足预设条件时,从所述自编码器模型中获取目标特征向量,具体包括:对所述输入特征向量进行编码,生成隐藏层的中间特征向量;对所述隐藏层的中间特征向量进行解码,得到输出特征向量;以及,在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时,确定所述隐藏层的中间特征向量为目标特征向量。
[0008]根据本专利技术一种优选实施方式,还包括:根据所述输入特征向量获取权值矩阵、第一偏置向量以及第二偏置向量;其中,预先设置所述隐藏层的中间特征向量的节点数m,所述权值矩阵是n
×
m的矩阵且n>m,n表示输入特征向量的维度;对所述输入特征向量进行编码,生成隐藏层的中间特征向量;对所述隐藏层的中间特征向量进行解码,得到输出特征向量;以及,在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时,确定所述隐藏层的中间特征向量为目标特征向量,具体包括:根据所述输入特征向量、权值矩阵以及第一偏置向量确定中间特征向量:h=f1(x)=σ1(W1x+b1),其中,h表示中间特征向量,x表示输入特征向量;W1x表示x到h的权值矩阵,σ1表示第一激活函数,b1表示第一偏置向量;根据中间特征向量、权值矩阵的逆矩阵以及第二偏置向量确定输出特征向量:x
R
=f2(h)=σ2(W2h+b2),其中,x
R
表示输出特征向量,h表示中间特征向量,W2h表示h到x
R
的权值矩阵且W2h为W1x权值矩阵对应的逆矩阵,σ2表示第二激活函数,b2表示第二偏置向量;计算输出特征向量与输入特征向量的损失:MinimizeLoss=dist(x,x
R
),其中,dist为二者的距离度量函数;判断步骤:判断损失是否小于预设阈值;如果是,则将中间特征向量确定为目标特征向量并输出;如果否则对所述权值矩阵、第一偏置向量以及第二偏置向量重新赋值,重新确定输出特征向量,重新计算输出特征向量与输入特征向量的损失后执行所述判断步骤,直到损失小于所述预设阈值为止。
[0009]根据本专利技术一种优选实施方式,还包括:中间特征向量的每个元素都是0

1范围内的小数;对于每个待识别的目标数据,将所述目标数据的输入特征向量确定的中间特征向量中值最大的元素置为1,其他元素置为0。
[0010]根据本专利技术一种优选实施方式,对所述权值矩阵、第一偏置向量以及第二偏置向量重新赋值,包括:对所述权值矩阵、第一偏置向量以及第二偏置向量按照梯度下降法重新赋值。
[0011]根据本专利技术一种优选实施方式,还包括:所述自编码器模型包含多个隐藏层;训练所述自编码器模型包括:根据输入特征向量x,训练第一个隐藏层,得到对输入特征向量x的表达h1,并输出表达h1;使用第一个隐藏层输出的表达h1,训练第二个隐藏层,得到对表达h1的表达h2;依次对每一个隐藏层采用同样的训练策略,将前一个隐藏层的输出作为下一个隐藏层的输入,最后一个隐藏层的输出为中间特征向量。
[0012]根据本专利技术一种优选实施方式,还包括:将数据样本集分成训练集和测试集,以及,根据训练集和测试集分别提取的特征数据形成目标特征参数,生成待识别的目标数据的输入特征向量x;构建自编码器模型,利用所述输入特征向量x分别进行训练和测试后,获得训练后的所述自编码器模型中的最优的特征表达权值W
u
和最优的第一偏置向量b
u
;将最优的特征表达权值W
u
和最优的第一偏置向量b
u
作为深度神经网络分类器的参数的初始值;获取历史目标的历史数据样本形成历史数据样本集,从历史数据样本集提取特征数据形成历史目标特征参数,以及,利用所述历史目标特征参数生成历史输入特征向量;利用训练后
的自编码器模型对历史输入特征向量进行编码后得到样本向量,根据所述样本向量和对应的历史目标所属的群体类别对所述深度神经网络分类器进行训练;将所述目标特征向量输入至训练后的分类器中,输出待识别的目标数据对应的目标所属的群体类别,具体包括:将所述目标特征向量输入到训练后的所述深度神经网络分类器,从所述深度神经网络分类器的输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自编码器的自适应目标分类方法,其特征在于,包括:按照预设策略从采集的多个目标的目标数据中选择数据样本而得到数据样本集,从所述数据样本集提取特征数据形成目标特征参数,以及,利用所述目标特征参数生成待识别的目标数据的输入特征向量;使用自编码器模型对所述输入特征向量进行分类编码以及解码,当解码得到的输出特征向量与所述输入特征向量满足预设条件时,从所述自编码器模型中获取目标特征向量;将所述目标特征向量输入至训练后的分类器中,输出待识别的目标数据对应的目标所属的群体类别。2.如权利要求1所述的方法,其特征在于,使用自编码器模型对所述输入特征向量进行分类编码以及解码,当解码得到的输出特征向量与所述输入特征向量满足预设条件时,从所述自编码器模型中获取目标特征向量,具体包括:对所述输入特征向量进行编码,生成隐藏层的中间特征向量;对所述隐藏层的中间特征向量进行解码,得到输出特征向量;以及,在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时,确定所述隐藏层的中间特征向量为目标特征向量。3.如权利要求2所述的方法,其特征在于,还包括:根据所述输入特征向量获取权值矩阵、第一偏置向量以及第二偏置向量;其中,预先设置所述隐藏层的中间特征向量的节点数m,所述权值矩阵是n
×
m的矩阵且n>m,n表示输入特征向量的维度;对所述输入特征向量进行编码,生成隐藏层的中间特征向量;对所述隐藏层的中间特征向量进行解码,得到输出特征向量;以及,在确定解码得到的输出特征向量与所述输入特征向量满足预设条件时,确定所述隐藏层的中间特征向量为目标特征向量,具体包括:根据所述输入特征向量、权值矩阵以及第一偏置向量确定中间特征向量:h=f1(x)=σ1(W1x+b1),其中,h表示中间特征向量,x表示输入特征向量;W1x表示x到h的权值矩阵,σ1表示第一激活函数,b1表示第一偏置向量;根据中间特征向量、权值矩阵的逆矩阵以及第二偏置向量确定输出特征向量:x
R
=f2(h)=σ2(W2h+b2),其中,x
R
即x
R
表示输出特征向量,h表示中间特征向量,W2h表示h到x
R
的权值矩阵且W2h为W1x权值矩阵对应的逆矩阵,σ2表示第二激活函数,b2表示第二偏置向量;计算输出特征向量与输入特征向量的损失:MinimizeLoss=dist(x,x
R
),其中,dist为二者的距离度量函数;判断步骤:判断损失是否小于预设阈值;如果是,则将中间特征向量确定为目标特征向量并输出;如果否则对所述权值矩阵、第一偏置向量以及第二偏置向量重新赋值,重新确定输出特征向量,重新计算输出特征向量与输入特征向量的损失后执行所述判断步骤,直到损失小于所述预设阈值为止。4.如权利要求3所述的方法,其特征在于,还包括:中间特征向量的每个元素都是0

1范围内的小数;对于每个待识别的目标数据,将所述目标数据的输入特征向量确定的中间特征向量中值最大的元素置为1,其他元素置...

【专利技术属性】
技术研发人员:宋孟楠苏绥绥
申请(专利权)人:上海淇玥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1