【技术实现步骤摘要】
基于发票数据的用户画像方法及装置
本专利技术涉及大数据
,尤其涉及一种基于发票数据的用户画像方法及装置。
技术介绍
在“用户中心论”的理论支持下,很多行业意识到用户的重要性,开始了从以产品和服务为中心向以用户为主导的思维转变,着重研究用户需求和用户满意度等。为了能够吸引更多的新用户,同时留住老用户,增加营收,提高利润,基于用户的研究越来越重要了。目前,基于发票数据对用户消费偏好、用户消费行为的数据处理方法的效率低,消耗的时间长,不能满足发票行业的需求。
技术实现思路
针对现有技术的不足,本专利技术提供基于发票数据的用户画像方法及装置,以解决目前针对用户消费偏好、用户消费行为的数据处理方法耗时及低效的问题。第一方面,本专利技术提供一种基于发票数据的用户画像方法,包括以下步骤:从获取的发票票面数据中,提取用户消费行为数据,其中,用户消费数据包括商品、购货方、销货方和消费金额;针对标准化后的用户消费行为数据,基于KNN聚类方法,分别聚类得到商品与消费金额对应的多个分组、商品 ...
【技术保护点】
1.一种基于发票数据的用户画像方法,其特征在于,包括以下步骤:/n从获取的发票票面数据中,提取用户消费行为数据,其中,用户消费数据包括商品、购货方、销货方和消费金额;/n针对标准化后的用户消费行为数据,基于KNN聚类方法,分别聚类得到商品与消费金额对应的多个分组、商品与销货方对应的多个分组、商品与购货方对应的多个分组;其中,每个分组中,每一个二维数据对应有预先设定的多个标签中的一个标签;/n针对目标用户,确定目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组;/n根据业务需求确定的标签权重值,形成宽表,所述宽表即为针对该目标用户的精细画像。/n
【技术特征摘要】
1.一种基于发票数据的用户画像方法,其特征在于,包括以下步骤:
从获取的发票票面数据中,提取用户消费行为数据,其中,用户消费数据包括商品、购货方、销货方和消费金额;
针对标准化后的用户消费行为数据,基于KNN聚类方法,分别聚类得到商品与消费金额对应的多个分组、商品与销货方对应的多个分组、商品与购货方对应的多个分组;其中,每个分组中,每一个二维数据对应有预先设定的多个标签中的一个标签;
针对目标用户,确定目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组;
根据业务需求确定的标签权重值,形成宽表,所述宽表即为针对该目标用户的精细画像。
2.根据权利要求1所述的基于发票数据的用户画像方法,其特征在于,还包括:
根据业务需求确定的标签权重值,根据目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组,
将目标用户划分到指定的四类用户类别中,其中,所述四类用户类别分别为优质、良好、普通、黑名单。
3.根据权利要求1所述的基于发票数据的用户画像方法,其特征在于,在使用KNN聚类方法时,应用KD-Tree算法快速搜索最近点,包括:
获取特征点数据;
步骤A1:展开kd-树;选择最大方差维数ki;选取ki维的中值kv作阈值;其中,ki为大于1的正整数;
步骤A2:针对各ki维,分割特征点数据,包括:
在ki维小于阈值时,将特征点数据加入到右子树特征点数据,展开右子树;
在ki维大于阈值时,将特征点数据加入到左子树特征点数,并展开左子树;
步骤A3:重复步骤A1—步骤A2,直到特征点数据的数目为1。
4.根据权利要求1所述的基于发票数据的用户画像方法,其特征在于,在提取用户消费行为数据之后,还包括:
基于缺失值比率,清洗用户消费行为数据。
5.根据权利要求4所述的基于发票数据的用户画像方法,其特征在于,在提取用户消费行为数据之后,还包括:
基于z-score方法,对清洗后的用户消费行为数据进行标准化。
6.一种基于发票数据的用户画像装置,其特征在于,包括:
用户消费行为数据提取单元,用于:
从获取的发票票面数据中...
【专利技术属性】
技术研发人员:王晓亮,刘冬娜,魏海健,王凯,党璐一,李凯,张健,
申请(专利权)人:大象慧云信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。