基于用户画像和半监督学习的潜在新能源车主预测方法、系统及存储介质技术方案

技术编号:37490518 阅读:17 留言:0更新日期:2023-05-07 09:29
本发明专利技术提供一种基于用户画像和半监督学习的潜在新能源车主预测方法、系统及存储介质,从传统车主数据出发,根据用户实际购买以及购买意向进行区别打标,找到目标用户,并在数据层面提出使用半监督学习的自训练方法来处理数据不足的问题,最后将用户意向数据引入模型迭代环节,将数据结果与业务实际关联起来,提高模型预测结果的准确性和业务解释性,以有效帮助传统车企挖掘潜在的新能源目标车主。本发明专利技术可以克服传统车与新能源车客户资源难以互通、新能源车主规模小导致数据倾斜、购车周期长难以应对模型校验等问题。车周期长难以应对模型校验等问题。车周期长难以应对模型校验等问题。

【技术实现步骤摘要】
基于用户画像和半监督学习的潜在新能源车主预测方法、系统及存储介质


[0001]本专利技术涉及人工智能
,具体涉及基于用户画像和半监督学习的潜在新能源车主预测技术。

技术介绍

[0002]对于从传统燃油汽车企业向新能源汽车转型的车企来说,能否准确的从传统车主中发掘出潜在的新能源客户,决定了新能源产品的销量和企业效益的高低。因此,在传统车基础上进行新能源车主预测是传统车企转型中重点关注的问题。
[0003]现有技术中,对传统的潜在客户发掘方法,主要依赖销售、留资等信息,通过收集用户主动记录的信息来寻找潜在用户,成本较高,但是触达用户较为准确;全新的潜在客户发掘方法,主要依赖互联网技术,通过分析用户画像来寻找潜在用户,成本较低,但是触达用户不准确。可见,数据本身存在的收集困难和用户标签不准对预测影响颇大。
[0004]因此,如何提出一种方法能够效率更高地结合传统信息与新技术,从传统车主中筛选出新能源车的潜在客户,成为新能源车企亟待解决的关键问题。

技术实现思路

[0005]本专利技术为了克服传统车与新能源车客户资源难以互通、新能源车主规模小导致数据倾斜、购车周期长难以应对模型校验等问题,提出一种基于用户画像和半监督学习的潜在新能源车主预测方法,是从传统车主数据出发,根据用户实际购买以及购买意向进行区别打标,找到目标用户,并在数据层面提出使用半监督学习的自训练方法来处理数据不足的问题,最后将用户意向数据引入模型迭代环节,将数据结果与业务实际关联起来,提高模型预测结果的准确性和业务解释性,以有效帮助传统车企挖掘潜在的新能源目标车主。
[0006]本专利技术的技术方案如下:
[0007]本专利技术在第一方面,提出一种基于用户画像和半监督学习模型的新能源车主预测方法,主要包括以下几个步骤:
[0008]步骤1,用户画像:收集传统车主信息进行用户画像,从基本情况、用车场景、购车意向三个纬度得到画像指标,作为特征x。
[0009]通过本步骤,本专利技术对于已有的传统车企数据,收集多维用户画像,用户画像维度全面,基本能够回答用户是什么人、怎么用车、用什么车的问题。
[0010]本步骤中,所述传统车主是指非新能源车主。整个方法的思想就是从传统车主的用户池出发的,预测本公司传统车用户中,尚未购买、尚未知购买新能源车的那一部分人在未来购买新能源车的概率。
[0011]步骤2、确认用户标签:匹配传统车主信息和新能源车主信息,得到传统车主是否购买新能源车的二分类标签,作为标签y,分为有标签数据L(x,y)和标签数据U(x,nan)。通过本步骤根据二重条件“是否已购”、“是否有购买意向”对用户区别打标,有效筛选出具有
训练价值的源数据,用户标签清晰,能够区别不同类型购车用户
[0012]步骤3、自训练实现半监督学习:将特征x和标签y输入半监督学习模型,用自训练算法训练。
[0013]本步骤是进行模型训练,因为标签y只能标记那些“已经有购买记录的用户=1”,“明确没有购买意向的用户=0”,剩下一大部分用户其实不知道他买or没买,y未知,即后文提到的无标签数据Ubel。
[0014]本专利技术通过用半监督学习模型训练数据,充分适应有标数据规模小、数据质量差的传统车企实际情况,并且以自训练算法实现半监督形式,自训练算法相比于其他半学习算法,对已有标签利用度较高,能够充分挖掘已有标签的价值。
[0015]步骤4、分类器重复迭代:在自训练算法中引入集成算法作为半监督学习的分类器C(x),将有标签数据L(x,y)和可信的无标签数据U
bel
(x,y

)输入模型重复迭代。
[0016]步骤5、判断可信度:引入用户意向数据判断预测结果可信度,剔除离群用户,优化模型。
[0017]本步骤中将用户画像中的意向信息引入可信度判断,一方面避免用户画像作为白盒规则容易产生的准召率问题,一方面优先提取有业务价值的记录,校正了分类器效果,提高模型鲁棒性;且同时考虑意向时间、意向类型两个维度,能够更准确挖掘用户购车潜力。
[0018]步骤6、输出预测结果:将所有通过可信度判断的数据U
bel
(x,y

)作为预测结果输出,得到每个用户购买新能源车的概率y

。对于xgboost模型,不仅可以输出01分类,也可以输出01分类的前置概率。
[0019]进一步地,所述步骤2中,传统车主是否购买新能源车的二分类标签包括:
[0020]将已经购买新能源车的传统车主、未购且无意向购买新能源车的传统车主,归为有标签数据L(x,y)。
[0021]将未购买新能源车的传统车主中,有意向购买新能源车的传统车主、未知意向购买的传统车主,归为无标签数据U(x,nan)。
[0022]进一步地,所述步骤3自训练实现半监督学习具体方法如下:
[0023]步骤3.1,训练有标签数据L(x,y),得到一个分类器C(x);
[0024]步骤3.2,使用分类器C(x)对无标签数据U(x,nan)进行预测得到预测标签y

,将可信程度较高的无标签数据U
bel
(x,y

)归入有标签数据L(x,y),扩充为有标签数据集L

(x,y);
[0025]步骤3.3,重新学习有标签数据集L

(x,y)后,得到新的分类器C

(x)再进行预测、筛选;重复该过程直到将无标签数据U(x,nan)及预测标签y

归入有标签数据L(x,y)为止。
[0026]以上三个步骤即说明了怎么实现自训练:用已知y的样本训练模型

用训练好的模型预测未知y的样本,得到它们的y

,选择其中比较可信的样本来扩充已知y的样本

用新的已知y的样本进行训练
→……
重复重复直到停止。
[0027]进一步地,所述步骤5判断可信度包括:
[0028]步骤5.1,设置意向时间系数ω
time
、意向车型系数ω
type
作为阈值为[0,1]的可信度调整系数,对预测标签y实现重排序:
[0029][0030]其中,意向时间系数ω
time
以预设年份为最大值作归一化得到;意向车型系数ω
type
根据新能源类型的电机动力参与度等差递减;两种系数的源指标若存在数据缺失或未知信息,则系数置为0。
[0031]步骤5.2,y

和y

bel
同时满足判断条件,即可筛选出可信程度较高的无标签数据U
bel
(x,y

),归入有标签数据L(x,y)中,进行下一轮分类器训练。
[0032]本专利技术在第二方面提供一种基于用户画像和半监督学习的潜在新能源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户画像和半监督学习的潜在新能源车主预测方法,其特征在于,包括步骤:步骤1,用户画像:收集传统车主信息进行用户画像,从基本情况、用车场景、购车意向三个纬度得到画像指标,作为特征x;步骤2、确认用户标签:匹配传统车主信息和新能源车主信息,得到传统车主是否购买新能源车的二分类标签,作为标签y,分为有标签数据L(x,y)和标签数据U(x,nan);步骤3、自训练实现半监督学习:将特征x和标签y输入半监督学习模型,用自训练算法训练;步骤4、分类器重复迭代:在自训练算法中引入集成算法作为半监督学习的分类器C(x),将有标签数据L(x,y)和可信的无标签数据U
bel
(x,y

)输入模型重复迭代;步骤5、判断可信度:引入用户意向数据判断预测结果可信度,剔除离群用户,优化模型;步骤6、输出预测结果:将所有通过可信度判断的数据U
bel
(x,y

)作为预测结果输出,得到每个用户购买新能源车的概率y

。2.根据权利要求1所述的基于用户画像和半监督学习的潜在新能源车主预测方法,其特征在于,所述传统车主信息包括固定周期内传统车主的购车信息、留资信息、用车信息、资讯信息;所述传统车主是指非新能源车主。3.根据权利要求1或2所述的基于用户画像和半监督学习的潜在新能源车主预测方法,其特征在于,所述画像指标中,基本情况包括用户的性别、出生地、年龄、工作类型、定居城市,表示自然人信息和社交信息;用车场景表示用户的驾驶行为,是在固定周期内收集的用户行车大数据统计总量、频率、一致性、短时波动范围、极值等指标;购车意向是根据用户app行为得到的短期行为指标,按周期统计点击、点赞、收藏、评论等频率和转化率,形成漏斗指标。4.根据权利要求1所述的基于用户画像和半监督学习的潜在新能源车主预测方法,其特征在于,所述步骤2中,传统车主是否购买新能源车的二分类标签包括:将已经购买新能源车的传统车主、未购且无意向购买新能源车的传统车主,归为有标签数据L(x,y);将未购买新能源车的传统车主中,有意向购买新能源车的传统车主、未知意向购买的传统车主,归为无标签数据U(x,nan)。5.根据权利要求1所述的基于用户画像和半监督学习的潜在新能源车主预测方法,其特征在于,所述步骤3模型训练具体方法如下:步骤3.1,训练有标签数据L(x,y),得到一个分类器C(x);步骤3.2,使用分类器C(x)对无标签数据U(x,nan)进行预测得到预测标签y

,将可信程度较高的无标签数据U
bel
(x,y

)归入有标签数据L(x,y),扩充为有标签数据集L

(x,y);步骤3.3,重新学习有标签数据集L

(x,y)后,得到新的分类器C

(x)再进行预测、筛选;重复该过程直到将无标签数据U(x,nan)及预测标签y

归入有标签数据L(x,y)为止。6.根据权利要求1所述的基于用户画像和半监督学习的潜在新能源车主预测方法,其
特征在于,所述步...

【专利技术属性】
技术研发人员:金晓涵李易林富李宗华
申请(专利权)人:长安新能源南京研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1