一种基于偏向性特征的属性预测方法技术

技术编号:26846469 阅读:40 留言:0更新日期:2020-12-25 13:09
本发明专利技术提出一种基于偏向性特征的属性预测方法,包括数据获取阶段、数据清洗阶段、数据特征提取阶段、模型训练阶段以及模型预测阶段。数据获取阶段获取和实体属性相关的历史行为数据,数据特征提取阶段从历史行为数据中提取特征数据,模型训练阶段根据所述数据特征提取阶段得到的偏向性特征数据作为模型的输入,通过模型来学习输入特征和输出属性之间的映射关系;模型预测阶段基于所述模型训练阶段得到的最优化模型进行属性预测。所述属性预测包括基于所述历史行为数据输入所述最优化模型预测用户的性别以及对应的潜在购买目标。本发明专利技术的技术方案获取得到的信息覆盖率和准确率均具备代表性,能够较好的实现属性预测。

【技术实现步骤摘要】
一种基于偏向性特征的属性预测方法
本专利技术属于大数据预测与匹配
,尤其涉及一种基于偏向性特征的属性预测方法。
技术介绍
在互联网领域中,无论是电商、金融、O2O等各种场景中如何更好的理解描述各个参与的主体,都是极为重要的课题。随着大数据技术的不断深入,越来越多企业都聚焦于使用大数据来提升各种商业行为的效率,如精准营销、个性化推荐、体验优化等。这些都需要我们能够更加深入的对各个实体进行细致的刻画。以用户实体为例,其属性包括人口属性、行为轨迹、兴趣爱好、消费偏好等。现有技术中通过基本资料填写的方式获取得到的信息往往覆盖率和准确率都得不到保证。因此通过机器学习的方法对实体的属性进行预测显得尤为重要。现有技术中,如专利CN201610486432.7中公开了一种基于安装包列表的移动用户性别预测方法,其中在将安装包列表转化成特征时提到通过结合性别比例及不同性别下安装包安装数量的比例作为特征值,在模型选择中使用决策树来进行最终性别预测。此外,申请号为CN201611241540的中国专利技术专利申请提出一种地图围栏匹配方法,本方法包括获取用本文档来自技高网...

【技术保护点】
1.一种基于偏向性特征的属性预测方法,所述方法包括数据获取阶段、数据清洗阶段、数据特征提取阶段、模型训练阶段以及模型预测阶段;/n其特征在于:/n所述数据获取阶段,用于获取和实体属性相关的历史行为数据,所述实体属性包括实体的自然属性和社会属性;/n所述数据清洗阶段,用于所述数据获取阶段获取的所述历史行为数据进行数据清洗操作,数据清洗操作包括缺失值处理、重复数据处理、数据的合法性处理;/n所述数据特征提取阶段,用于从所述数据清洗阶段处理过的历史行为数据中提取特征数据,所述特征数据为对所述历史行为数据的偏向性集合进行统计得到的偏向性特征数据;/n所述模型训练阶段,用于根据所述数据特征提取阶段得到的...

【技术特征摘要】
1.一种基于偏向性特征的属性预测方法,所述方法包括数据获取阶段、数据清洗阶段、数据特征提取阶段、模型训练阶段以及模型预测阶段;
其特征在于:
所述数据获取阶段,用于获取和实体属性相关的历史行为数据,所述实体属性包括实体的自然属性和社会属性;
所述数据清洗阶段,用于所述数据获取阶段获取的所述历史行为数据进行数据清洗操作,数据清洗操作包括缺失值处理、重复数据处理、数据的合法性处理;
所述数据特征提取阶段,用于从所述数据清洗阶段处理过的历史行为数据中提取特征数据,所述特征数据为对所述历史行为数据的偏向性集合进行统计得到的偏向性特征数据;
所述模型训练阶段,用于根据所述数据特征提取阶段得到的偏向性特征数据作为模型的输入,通过模型来学习输入特征和输出属性之间的映射关系;
所述模型预测阶段,用于基于所述模型训练阶段得到的最优化模型进行属性预测;
其中,所述历史行为数据包括用户点击的广告序列、用户手机安装的应用软件列表以及历史安装记录、删除记录;
所述属性预测包括基于所述历史行为数据输入所述最优化模型预测用户的性别以及对应的潜在购买目标。


2.如权利要求1所述的一种基于偏向性特征的属性预测方法,其特征在于:
所述实体的自然属性包括所述用户手机的硬件参数;所述实体的社会属性包括所述用户在所述手机上的支付数据集合,所述支付数据集合包括用户的金融支付数据、金融支付习惯以及金融活跃属性。


3.如权利要求1所述的一种基于偏向性特征的属性预测方法,其特征在于:
所述特征数据为对所述历史行为数据的偏向性集合进行统计得到的偏向性特征数据,具体包括:
所述偏向性表示为F(X=a,Y=ck),其中a为历史行为数据X的某一取值,ck为历史行为数据X属于类别标签Y的统计概率取值;
偏向性F的具体计算公式如下





4.如权利要求2所述的一种基于偏向性特征的属性预测方法,其特征在于:
所述金融支付数据包括用户在线支付的日平均支付额度和支付频率;
所述金融支付习惯包括NFC支付、蓝牙支付、扫码支付、转账支付之一或者其组合;
所述金融活跃属性包括用户在不同金融APP上的活跃参数,包括停留时间、打开频次以及界面操作参数。


5.如权利要求4所述的一种基于偏向性特征的属性预测方法,其特征在于:
所述界面操作参数包括客户的返回操作、退出当前页面操作、删除操作以及页面停顿操作。


6.如权利要求1-3任一所述的一种基于偏向性特征的属性预测方法,其特征在于:
所述基于所述历史行为数据输入所述最优化模型预测用户的性别,具体包括如下步骤:
S501:统计出每个应用软件对应的偏向性取值:
假设用N(·)表示对应样本数量...

【专利技术属性】
技术研发人员:李玲李嘉懿任永亮贺同路杨菲郭学栋
申请(专利权)人:北京智能工场科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1