变量筛选方法、装置、非易失性存储介质及处理器制造方法及图纸

技术编号:36689081 阅读:21 留言:0更新日期:2023-02-27 19:54
本发明专利技术公开了一种变量筛选方法、装置、非易失性存储介质及处理器。其中,该方法包括:获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量。本发明专利技术解决了由于无法对确定消费者画像的自变量进行筛选,造成确定消费者画像的效率较低的技术问题。像的效率较低的技术问题。像的效率较低的技术问题。

【技术实现步骤摘要】
变量筛选方法、装置、非易失性存储介质及处理器


[0001]本专利技术涉及计算机领域,具体而言,涉及一种变量筛选方法、装置、非易失性存储介质及处理器。

技术介绍

[0002]近年来,随着大数据的兴起,消费者行为分析的研究方兴未艾,数据库与数据挖掘、信息系统与信息管理、图像处理与计算机视觉、社会网络分析、电子商务等很多领域的学者加人消费者行为研究的队伍。同时,这一研究领域也受到了电子商务、社交网络等数字经济形态下的企业的高度关注,消费者行为分析被视为数字经济形态下企业了解其消费者并开展营销活动的有效手段之。在这些新兴的领域,消费者行为研究被称为消费者画像,同时在社会计算等研究领域中占有重要的地位。
[0003]但是,现有技术无法对确定消费者画像的自变量进行筛选,因此确定消费者画像的所使用的自变量角度,影响消费者画像的确定效率。
[0004]针对上述由于无法对确定消费者画像的自变量进行筛选,造成确定消费者画像的效率较低的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种变量筛选方法、装置、非易失性存储介质及处理器,以至少解决由于无法对确定消费者画像的自变量进行筛选,造成确定消费者画像的效率较低的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种变量筛选方法,包括:获取用于评估目标变量的自变量,其中,所述目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估所述自变量与所述目标变量的线性关系,确定线性相关度;在所述目标变量对应多个所述线性相关度高于预设相关度阈值的自变量的情况下,选取所述线性相关度最高的自变量作为所述目标变量的样本变量,其中,所述样本变量和所述目标变量作为训练目标预测模型的训练数据,所述目标预测模型用于对所述自变量分析确定预测变量。
[0007]可选地,在选取所述线性相关度最高的自变量作为所述目标变量的样本变量之后,所述方法还包括:识别所述自变量的变量类型,其中,所述变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在所述自变量属于所述量类别型变量的情况下,使用预设卡方检验模型检验所述目标预测模型的所述自变量和所述预测变量的关联性;在所述自变量不属于所述类别型变量的情况下,使用预设回归模型检验所述目标预测模型的所述自变量和所述预测变量的关联性。
[0008]可选地,获取用于评估目标变量的自变量包括:获取所述自变量的属性值;使用预设评估算法对所述自变量的属性值进行分析,确定所述自变量的预测价值,其中,所述预测价值用于表示根据所述自变量确定的预测变量与所述自变量对应的目标变量的符合程度;选取所述预测价值高于预设价值阈值的自变量为用于评估所述目标变量的自变量。
[0009]可选地,使用预设评估算法对所述自变量的属性值进行分析,确定所述自变量的预测价值包括:识别所述自变量的变量类型,其中,所述变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在所述自变量属于所述区间型变量的情况下,将所述自变量分箱为多个区间变量;使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值。
[0010]可选地,使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值包括:使用预设证据权重算法对每个所述区间变量进行分析,确定每个所述区间变量的证据权重,其中,所述证据权重用于表示所述区间变量的好变量比例和坏变量比例之比的对数,所述好变量比例为每个区间变量中好变量相对于全部区间变量中好变量的比例,所述坏变量比例为每个区间变量中坏变量相对于全部区间变量中坏变量的比例;使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值。
[0011]可选地,使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值包括:使用预设信息价值评估模型对每个所述区间变量的证据权重进行分析,确定每个所述区间变量的信息价值,并将所述信息价值作为所述预测价值,其中,所述信息价值表示所述自变量区分所述目标变量中的事件和非事件的能力;或使用预设基尼指数模型对每个所述区间变量的证据权重进行分析,确定每个所述区间变量的基尼指数,并将所述基尼指数作为所述预测价值,其中,所述基尼指数用于评估所述区间变量的不纯度。
[0012]可选地,使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值包括:使用预设信息价值评估模型对每个所述区间变量的证据权重进行分析,确定每个所述区间变量的信息价值,其中,所述信息价值表示所述自变量区分所述目标变量中的事件和非事件的能力;使用预设基尼指数模型对每个所述区间变量的证据权重进行分析,确定每个所述区间变量的基尼指数,其中,所述基尼指数用于评估所述区间变量的不纯度;确定所述信息价值与第一预设权重的乘积,确定第一价值;确定所述信息价值和第二预设权重的乘积,确定第二价值;根据所述第一价值和所述第二价值的和,确定所述预测价值。
[0013]根据本专利技术实施例的另一方面,还提供了一种变量筛选装置,包括:获取模块,用于获取用于评估目标变量的自变量,其中,所述目标变量对应一个或多个自变量;评估模块,用于使用预设皮尔逊相关系数模型评估所述自变量与所述目标变量的线性关系,确定线性相关度;选取模块,用于在所述目标变量对应多个所述线性相关度高于预设相关度阈值的自变量的情况下,选取所述线性相关度最高的自变量作为所述目标变量的样本变量,其中,所述样本变量和所述目标变量作为训练目标预测模型的训练数据,所述目标预测模型用于对所述自变量分析确定预测变量。
[0014]根据本专利技术实施例的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质中存储有程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述所述变量筛选方法。
[0015]根据本专利技术实施例的另一方面,还提供了一种电子设备,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行上述所述的
变量筛选方法。
[0016]在本专利技术实施例中,获取用于评估目标变量的自变量,其中,目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估自变量与目标变量的线性关系,确定线性相关度;在目标变量对应多个线性相关度高于预设相关度阈值的自变量的情况下,选取线性相关度最高的自变量作为目标变量的样本变量,其中,样本变量和目标变量作为训练目标预测模型的训练数据,目标预测模型用于对自变量分析确定预测变量,达到了对自变量进行筛选的目的,减少训练目标预测模型所需训练数据的数据量,从而实现了提高目标预测模型训练效率的技术效果,进而解决了由于无法对确定消费者画像的自变量进行筛选,造成确定消费者画像的效率较低技术问题。
附图说明
[0017]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种变量筛选方法,其特征在于,包括:获取用于评估目标变量的自变量,其中,所述目标变量对应一个或多个自变量;使用预设皮尔逊相关系数模型评估所述自变量与所述目标变量的线性关系,确定线性相关度;在所述目标变量对应多个所述线性相关度高于预设相关度阈值的自变量的情况下,选取所述线性相关度最高的自变量作为所述目标变量的样本变量,其中,所述样本变量和所述目标变量作为训练目标预测模型的训练数据,所述目标预测模型用于对所述自变量分析确定预测变量。2.根据权利要求1所述的方法,其特征在于,在选取所述线性相关度最高的自变量作为所述目标变量的样本变量之后,所述方法还包括:识别所述自变量的变量类型,其中,所述变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在所述自变量属于所述量类别型变量的情况下,使用预设卡方检验模型检验所述目标预测模型的所述自变量和所述预测变量的关联性;在所述自变量不属于所述类别型变量的情况下,使用预设回归模型检验所述目标预测模型的所述自变量和所述预测变量的关联性。3.根据权利要求1所述的方法,其特征在于,获取用于评估目标变量的自变量包括:获取所述自变量的属性值;使用预设评估算法对所述自变量的属性值进行分析,确定所述自变量的预测价值,其中,所述预测价值用于表示根据所述自变量确定的预测变量与所述自变量对应的目标变量的符合程度;选取所述预测价值高于预设价值阈值的自变量为用于评估所述目标变量的自变量。4.根据权利要求3所述的方法,其特征在于,使用预设评估算法对所述自变量的属性值进行分析,确定所述自变量的预测价值包括:识别所述自变量的变量类型,其中,所述变量类型至少包括:比例型变量、区间型变量、量类别型变量和二元变量;在所述自变量属于所述区间型变量的情况下,将所述自变量分箱为多个区间变量;使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值。5.根据权利要求4所述的方法,其特征在于,使用所述预设评估算法对每个所述区间变量的属性值进行分析,确定所述区间变量的预测价值包括:使用预设证据权重算法对每个所述区间变量进行分析,确定每个所述区间变量的证据权重,其中,所述证据权重用于表示所述区间变量的好变量比例和坏变量比例之比的对数,所述好变量比例为每个区间变量中好变量相对于全部区间变量中好变量的比例,所述坏变量比例为每个区间变量中坏变量相对于全部区间变量中坏变量的比例...

【专利技术属性】
技术研发人员:槐正徐冬冬张涛姜承祥付迎鑫张哲姬照中徐锐王健徐蕾
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1