特征处理方法、装置、计算机可读存储介质和计算机设备制造方法及图纸

技术编号:21953998 阅读:32 留言:0更新日期:2019-08-24 18:18
本申请涉及一种特征处理方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取不同候选特征所对应的、且与样本用户序列对应的特征向量;依据与各所述候选特征分别对应的特征向量,对相应的候选特征进行聚类,得到至少一个类;对于每个候选特征,确定通过所属类内的特征向量拟合所述每个候选特征所对应特征向量时的类内共线性参数;对于所述每个候选特征,确定通过所属类外的特征向量拟合所述每个候选特征所对应特征向量时的类间共线性参数;分别从各类所包括的候选特征中,筛选出相应类内共线性参数和类间共线性参数的差异符合共线性差异条件的目标特征。本申请提供的方案可以挖掘出去共线性的特征,根据去共线性的特征训练得到可解释性模型。

Feature Processing Method, Device, Computer Readable Storage Media and Computer Equipment

【技术实现步骤摘要】
特征处理方法、装置、计算机可读存储介质和计算机设备
本申请涉及机器学习
,特别是涉及一种特征处理方法、装置、计算机可读存储介质和计算机设备。
技术介绍
随着计算机技术的发展,出现了机器学习技术,机器学习是一门人工智能的科学,是用数据或以往的经验来优化计算机程序的性能标准的一种技术。对于大数据领域的诸多业务问题,都可通过相应的机器学习模型来解决。而要训练出好的机器学习模型,常常需要构建好的、具有代表性的训练数据。因而,如何从海量数据中构建并筛选出有效的特征维度是亟待解决的重要问题。传统的特征选择方式,通常采用过滤式、包裹式、或嵌入式这三类方法,这三类方法有一个共同点,就是以最终的模型效果最优作为特征选择的目标,而没有考虑模型的可解释性。但对于某些特征可解释性要求较高的机器学习或数据挖掘领域,传统的特征选择方式无法筛选出高质量的特征。
技术实现思路
基于此,有必要针对传统的特征选择方式无法挖掘出用于训练得到可解释性模型的高质量特征的技术问题,提供一种特征处理方法、装置、计算机可读存储介质和计算机设备。一种特征处理方法,包括:获取不同候选特征所对应的、且与样本用户序列对应的特征向量;依据本文档来自技高网...

【技术保护点】
1.一种特征处理方法,包括:获取不同候选特征所对应的、且与样本用户序列对应的特征向量;依据与各所述候选特征分别对应的特征向量,对相应的候选特征进行聚类,得到至少一个类;对于每个候选特征,确定通过所属类内的特征向量拟合所述每个候选特征所对应特征向量时的类内共线性参数;对于所述每个候选特征,确定通过所属类外的特征向量拟合所述每个候选特征所对应特征向量时的类间共线性参数;分别从各类所包括的候选特征中,筛选出相应类内共线性参数和类间共线性参数的差异符合共线性差异条件的目标特征。

【技术特征摘要】
1.一种特征处理方法,包括:获取不同候选特征所对应的、且与样本用户序列对应的特征向量;依据与各所述候选特征分别对应的特征向量,对相应的候选特征进行聚类,得到至少一个类;对于每个候选特征,确定通过所属类内的特征向量拟合所述每个候选特征所对应特征向量时的类内共线性参数;对于所述每个候选特征,确定通过所属类外的特征向量拟合所述每个候选特征所对应特征向量时的类间共线性参数;分别从各类所包括的候选特征中,筛选出相应类内共线性参数和类间共线性参数的差异符合共线性差异条件的目标特征。2.根据权利要求1所述的方法,其特征在于,所述获取不同候选特征所对应的、且与样本用户序列对应的特征向量,包括:获取多于一个的样本用户各自所对应的候选样本用户数据;所述候选样本用户数据包括与不同候选特征分别对应的用户特征数据、及相应的类别标签;对于每个样本用户,根据相应的用户特征数据和类别标签,确定与不同候选特征分别对应的特征编码值;对于每个候选特征,将对应于所述每个样本用户的特征编码值按所述样本用户的排列顺序进行拼接,得到与样本用户序列对应的特征向量。3.根据权利要求2所述的方法,其特征在于,所述对于每个样本用户,根据相应的用户特征数据和类别标签,确定与不同候选特征分别对应的特征编码值,包括:对于每个候选特征,分别根据每个候选特征所对应的数据范围,对每个候选特征进行分段,得到候选特征子段;分别根据所述用户特征数据在各候选特征子段的数据范围内的样本用户的数量,及相应的类别标签,确定与各候选特征子段分别对应的特征编码值;对于每个样本用户,将对应不同候选特征的候选样本用户数据所对应的候选特征子段相应的特征编码值,作为与不同候选特征分别对应的特征编码值。4.根据权利要求1所述的方法,其特征在于,所述对于每个候选特征,确定通过所属类内的特征向量拟合所述每个候选特征所对应特征向量时的类内共线性参数,包括:分别遍历各类所包括的各候选特征;确定当前遍历的候选特征所属的类中,除当前遍历的所述候选特征外的类内候选特征;通过所述类内候选特征所对应的特征向量,对当前遍历的所述候选特征所对应的特征向量进行线性拟合,得到相应的类内拟合函数;确定与所述类内拟合函数对应、且用于表征拟合程度的类内共线性参数。5.根据权利要求1所述的方法,其特征在于,所述对于所述每个候选特征,确定通过所属类外的特征向量拟合所述每个候选特征所对应特征向量时的类间共线性参数,包括:分别遍历各类所包括的各候选特征;确定与当前遍历的候选特征所属类相异的异类;确定当前遍历的候选特征所属的类分别与各所述异类之间的距离;获取将所述距离按降值排名后名次小于或等于阈值所对应的异类;通过获取的所述异类所包括的候选特征所对应的特征向量,对当前遍历的所述候选特征所对应的特征向量进行线性拟合,得到相应的类间拟合函数;确定与所述类间拟合函数对应、且用于表征拟合程度的类间共线性参数。6.根据权利要求1所述的方法,其特征在于,所述对于所述每个候选特征,确定通过所属类外的特征向量拟合所述每个候选特征所对应特征向量时的类间共线性参数,包括:分别遍历各类所包括的各候选特征;确定与当前遍历的候选特征所属类相异的异类;分别根据各所述异类所包括的候选特征所对应的特征向量,计算各所述异类相应的聚类中心向量;通过所述聚类中心向量,对当前遍历的所述候选特征所对应的特征向量进行线性拟合,得到相应的类间拟合函数;确定与所述类间拟合函数对应、且用于表征拟合程度的类间共线性参数。7.根据权利要求1所述的方法,其特征在于,所述分别从各类所包括...

【专利技术属性】
技术研发人员:吕培立董井然黄文郑立凡任钢林谭蕴琨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1