用户分类方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:27879952 阅读:23 留言:0更新日期:2021-03-31 01:13
本公开实施例公开了一种用户分类方法、装置、电子设备及可读存储介质,所述方法包括:获取训练数据,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;使用训练后的预测模型对待分类用户进行分类。该技术方案能够提高用户分类的准确性和泛化能力。

【技术实现步骤摘要】
用户分类方法、装置、电子设备及可读存储介质
本公开涉及数据处理
,具体涉及一种用户分类方法、装置、电子设备及可读存储介质。
技术介绍
在互联网服务中,推荐系统和个性化定制的需求日益增加。其中,用户画像(UserProfile)的核心工作是利用存储在服务器上的海量日志和数据库里的大量数据进行分析和挖掘,通过聚类等方法对用户分类,并根据类别给用户贴“标签”来表示该用户某一维度的特征,以实现相似用户的圈定。但是,在做出本公开的过程中,专利技术人发现,目前的用户分类方法由于样本数量较少、特征过于稀疏等问题,准确性较低,泛化能力较差。
技术实现思路
为了解决相关技术中的问题,本公开实施例提供一种用户分类方法、装置、电子设备及可读存储介质。第一方面,本公开实施例中提供了一种用户分类方法,包括:获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;使用训练后的预测模型对待分类用户进行分类。结合第一方面,本公开在第一方面的第一种实现方式中,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。结合第一方面,本公开在第一方面的第二种实现方式中,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;基于所述T个第二特征数据,得到所述特定非时间相关特征。结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。结合第一方面的第二种实现方式,本公开在第一方面的第四种实现方式中,所述基于所述T个第二特征数据,得到所述特定非时间相关特征,包括:基于所述T个第二特征数据,确定中间特征的出现次数,其中,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中间特征的第二特征数据个数;基于所述第二特征的出现次数,确定第三特征数据;基于所述特征选择模型,对所述第三特征进行贪心选择,确定所述特定非时间相关特征。结合第一方面,本公开在第一方面的第五种实现方式中,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练,包括:基于所述多个样本用户的所述特定非时间相关特征和所述特定时间相关特征训练多个基模型,确定各个基模型的模型参数;基于所述各个基模型的模型参数,确定所述多个基模型的组合系数。结合第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,当所述多个基模型包括item2vec模型时,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数,包括:获取所述多个样本用户的物品向量和评价矩阵,所述物品向量描述与所述多个样本用户有关的物品,所述评价矩阵描述所述多个样本用户对所述物品的评价;基于所述多个样本用户的物品向量和评价矩阵,获取各个所述样本用户的用户向量;根据所述用户向量,确定所述样本用户之间的两两相似度;根据所述样本用户之间的两两相似度,确定所述item2vec模型的模型参数。结合第一方面的第五种实现方式,本公开在第一方面的第七种实现方式中,所述基模型为以下任意一种模型:逻辑回归模型、xgboost模型、xgboost+LR模型、item2vec模型。结合第一方面,本公开在第一方面的第八种实现方式中,所述使用训练后的预测模型对待分类用户进行分类,包括:获取所述待分类用户的时间相关特征和特定非时间相关特征;基于所述待分类用户的时间相关特征和特定非时间相关特征,通过所述训练后的预测模型,确定所述待分类用户的标签。第二方面,本公开实施例中提供了一种用户分类装置,包括:获取模块,被配置为获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;筛选模块,被配置为对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;训练模块,被配置为基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;分类模块,被配置为使用训练后的预测模型对待分类用户进行分类。结合第二方面,本公开在第二方面的第一种实现方式中,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。结合第二方面,本公开在第二方面的第二种实现方式中,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;基于所述T个第二特征数据,得到所述特定非时间相关特征。结合第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。结合第二方面的第二种实现方式,本公开在第二方面的第四种实现方式中,所述基于所述T个第二特征数据,得到所述特定非时间相关特征,包括:基于所述T个第二特征数据,确定中间特征的出现次数,其中,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中本文档来自技高网...

【技术保护点】
1.一种用户分类方法,其特征在于,包括:/n获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;/n对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;/n基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;/n使用训练后的预测模型对待分类用户进行分类。/n

【技术特征摘要】
1.一种用户分类方法,其特征在于,包括:
获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;
对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;
使用训练后的预测模型对待分类用户进行分类。


2.根据权利要求1所述的方法,其特征在于,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。


3.根据权利要求1所述的方法,其特征在于,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:
对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;
基于所述T个第二特征数据,得到所述特定非时间相关特征。


4.根据权利要求3所述的方法,其特征在于,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;
基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;
所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。


5.根据权利要求3所述的方法,其特征在于,所述基于所述T个第二特征数据,得到所述特定非时间相关特征,包括:
基于所述T个第二特征数据,确定中间特征的出现次数,其中,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中间特征的第二特征数据个数;
基于所述第二特征的出现次数,确定第三特...

【专利技术属性】
技术研发人员:赵呈路
申请(专利权)人:北京星选科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1