基于行为特征预测用户属性值的方法、装置及存储介质制造方法及图纸

技术编号:21400805 阅读:51 留言:0更新日期:2019-06-19 07:29
本发明专利技术公开了一种基于行为特征预测用户属性值的方法、装置及存储介质,包括:获取待预测用户的基础特征和M个行为特征;基于预设的聚类算法,根据所述待预测用户的基础特征和M个行为特征对所述待预测用户进行聚类,获得所述待预测用户在预设的K个簇类中所属的目标簇类;根据所述待预测用户的基础特征中的缺失属性值和所述目标簇类从预设的分类模型库中确定目标分类模型;所述分类模型库中包含了若干个与用户的待预测属性值以及用户在所述K个簇类中所属的簇类一一对应的预先训练的分类模型;基于所述目标分类模型,根据所述待预测用户的M个行为特征预测所述缺失属性值。本发明专利技术能够避免增加噪声,并且提高预测精度。

【技术实现步骤摘要】
基于行为特征预测用户属性值的方法、装置及存储介质
本专利技术涉及数据挖掘
,尤其涉及一种基于行为特征预测用户属性值的方法、装置及计算机可读存储介质。
技术介绍
在数据挖掘领域,通过海量的数据为用户打标签,从而构建用户画像,是后续精确运营、精准营销、智能推荐等的基础工作。构建用户画像,一般通过用户的基础属性、事务记录、行为记录、社交关系等数据来刻画,其中基础属性是关键,是用户的基础信息,包括地区、年龄、性别等信息,以及根据不同应用系统特定的要求,例如教师注册系统还要求学科、学段等信息的登记。在实际系统运营中,经常会面临部分非必填项,用户注册时没有登记,特别是目前APP更多是通过手机号就可完成注册,导致用户出现部分缺失属性值,这对用户画像的构建乃至后续的个性化服务产生影响。例如用户注册时并未登记性别是男还是女,性别这个社会属性值的缺失会直接影响很多标签的定义,如果女性的这个属性值缺失,爱打扮、关注时尚等偏女性的标签就无法准确定义。在解决用户缺失属性值的问题上,现有技术提供的一般有两类做法:(1)用均值、中值、分位数、众数、随机值等替代用户的缺失属性值,这种做法虽然简单、直接,但是会增加样本噪声;(2)用其他属性预测缺失属性值,这种做法是目前比较常用的方法,但是往往会因为其他属性和所预测的属性之间没有关系导致预测失准。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种基于行为特征预测用户属性值的方法、装置及计算机可读存储介质,能够避免增加噪声,并且提高预测精度。为了解决上述技术问题,本专利技术实施例提供了一种基于行为特征预测用户属性值的方法,包括:获取待预测用户的基础特征和M个行为特征;其中,M≥1;基于预设的聚类算法,根据所述待预测用户的基础特征和M个行为特征对所述待预测用户进行聚类,获得所述待预测用户在预设的K个簇类中所属的目标簇类;其中,K≥1;根据所述待预测用户的基础特征中的缺失属性值和所述目标簇类从预设的分类模型库中确定目标分类模型;其中,所述分类模型库中包含了若干个与用户的待预测属性值以及用户在所述K个簇类中所属的簇类一一对应的预先训练的分类模型;基于所述目标分类模型,根据所述待预测用户的M个行为特征预测所述缺失属性值。进一步地,所述获取待预测用户的基础特征和M个行为特征,具体包括:采集所述待预测用户的基本信息和行为信息;对所述待预测用户的基本信息和行为信息进行异构清洗,获得所述待预测用户的基础特征和M个行为特征。进一步地,所述聚类算法为DBSCAN密度聚类算法。进一步地,所述方法通过以下步骤预先获取所述K个簇类:获取N个样本用户的基本信息和行为信息;其中,N≥1;分别对每一所述样本用户的基本信息和行为信息进行异构清洗,对应获得每一所述样本用户的基础特征和M个行为特征;基于所述聚类算法,根据每一所述样本用户的基础特征和M个行为特征对N个所述样本用户进行聚类;根据聚类结果获得所述K个簇类;其中,每一所述簇类中包括若干个所述样本用户。进一步地,所述方法通过以下步骤预先对分类模型进行训练:确定与预设的分类模型相对应的用户的待预测属性值以及用户在所述K个簇类中所属的簇类;其中,每一所述簇类中包括若干个根据所述聚类算法进行聚类的样本用户;根据所述待预测属性值和用户所属的簇类所包含的若干个样本用户获取样本集;其中,所述样本集中的每个样本用户均包括M个行为特征且带有所述待预测属性值的属性标记;根据所述样本集对所述分类模型进行训练。进一步地,所述根据所述待预测属性值和用户所属的簇类所包含的若干个样本用户获取样本集,具体包括:将用户所属的簇类所包含的若干个样本用户中所述待预测属性值不缺失的样本用户的集合作为所述样本集。进一步地,所述分类模型为MLP神经网络模型、LR逻辑回归模型、SVM支持向量机模型、决策树模型或深度学习模型。为了解决上述技术问题,本专利技术实施例还提供了一种基于行为特征预测用户属性值的装置,包括:用户特征获取模块,用于获取待预测用户的基础特征和M个行为特征;其中,M≥1;用户聚类模块,用于基于预设的聚类算法,根据所述待预测用户的基础特征和M个行为特征对所述待预测用户进行聚类,获得所述待预测用户在预设的K个簇类中所属的目标簇类;其中,K≥1;分类模型获取模块,用于根据所述待预测用户的基础特征中的缺失属性值和所述目标簇类从预设的分类模型库中确定目标分类模型;其中,所述分类模型库中包含了若干个与用户的待预测属性值以及用户在所述K个簇类中所属的簇类一一对应的预先训练的分类模型;以及,属性值预测模块,用于基于所述目标分类模型,根据所述待预测用户的M个行为特征预测所述缺失属性值。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的基于行为特征预测用户属性值的方法。本专利技术实施例还提供了一种基于行为特征预测用户属性值的装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的基于行为特征预测用户属性值的方法。与现有技术相比,本专利技术实施例提供了一种基于行为特征预测用户属性值的方法、装置及计算机可读存储介质,采用聚类算法根据待预测用户的基础特征和行为特征对待预测用户进行聚类,获得待预测用户在预设的K个簇类中所属的目标簇类,从而找到待预测用户的高相似性群体,并根据待预测用户的基础特征中的缺失属性值和目标簇类从预设的分类模型库中确定目标分类模型,从而采用确定的目标分类模型根据待预测用户的行为特征预测缺失属性值,先聚类后预测的结合能够避免增加噪声,并且根据与缺失属性值和目标簇类相对应的目标分类模型进行预测,考虑了其他属性和缺失属性之间的关系,从而提高了预测精度。附图说明图1是本专利技术提供的一种基于行为特征预测用户属性值的方法的一个优选实施例的流程图;图2是本专利技术提供的一种基于行为特征预测用户属性值的装置的一个优选实施例的结构框图;图3是本专利技术提供的一种基于行为特征预测用户属性值的装置的另一个优选实施例的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本
普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1所示,是本专利技术提供的一种基于行为特征预测用户属性值的方法的一个优选实施例的流程图,所述方法包括步骤S11至步骤S14:步骤S11、获取待预测用户的基础特征和M个行为特征;其中,M≥1;步骤S12、基于预设的聚类算法,根据所述待预测用户的基础特征和M个行为特征对所述待预测用户进行聚类,获得所述待预测用户在预设的K个簇类中所属的目标簇类;其中,K≥1;步骤S13、根据所述待预测用户的基础特征中的缺失属性值和所述目标簇类从预设的分类模型库中确定目标分类模型;其中,所述分类模型库中包含了若干个与用户的待预测属性值以及用户在所述K个簇类中所属的簇类一一对应的预先训练的分类模型;步骤S14、基于所述目标分类模型,根据所述待预测用户的M个行本文档来自技高网
...

【技术保护点】
1.一种基于行为特征预测用户属性值的方法,其特征在于,包括:获取待预测用户的基础特征和M个行为特征;其中,M≥1;基于预设的聚类算法,根据所述待预测用户的基础特征和M个行为特征对所述待预测用户进行聚类,获得所述待预测用户在预设的K个簇类中所属的目标簇类;其中,K≥1;根据所述待预测用户的基础特征中的缺失属性值和所述目标簇类从预设的分类模型库中确定目标分类模型;其中,所述分类模型库中包含了若干个与用户的待预测属性值以及用户在所述K个簇类中所属的簇类一一对应的预先训练的分类模型;基于所述目标分类模型,根据所述待预测用户的M个行为特征预测所述缺失属性值。

【技术特征摘要】
1.一种基于行为特征预测用户属性值的方法,其特征在于,包括:获取待预测用户的基础特征和M个行为特征;其中,M≥1;基于预设的聚类算法,根据所述待预测用户的基础特征和M个行为特征对所述待预测用户进行聚类,获得所述待预测用户在预设的K个簇类中所属的目标簇类;其中,K≥1;根据所述待预测用户的基础特征中的缺失属性值和所述目标簇类从预设的分类模型库中确定目标分类模型;其中,所述分类模型库中包含了若干个与用户的待预测属性值以及用户在所述K个簇类中所属的簇类一一对应的预先训练的分类模型;基于所述目标分类模型,根据所述待预测用户的M个行为特征预测所述缺失属性值。2.如权利要求1所述的基于行为特征预测用户属性值的方法,其特征在于,所述获取待预测用户的基础特征和M个行为特征,具体包括:采集所述待预测用户的基本信息和行为信息;对所述待预测用户的基本信息和行为信息进行异构清洗,获得所述待预测用户的基础特征和M个行为特征。3.如权利要求1所述的基于行为特征预测用户属性值的方法,其特征在于,所述聚类算法为DBSCAN密度聚类算法。4.如权利要求1所述的基于行为特征预测用户属性值的方法,其特征在于,所述方法通过以下步骤预先获取所述K个簇类:获取N个样本用户的基本信息和行为信息;其中,N≥1;分别对每一所述样本用户的基本信息和行为信息进行异构清洗,对应获得每一所述样本用户的基础特征和M个行为特征;基于所述聚类算法,根据每一所述样本用户的基础特征和M个行为特征对N个所述样本用户进行聚类;根据聚类结果获得所述K个簇类;其中,每一所述簇类中包括若干个所述样本用户。5.如权利要求1所述的基于行为特征预测用户属性值的方法,其特征在于,所述方法通过以下步骤预先对分类模型进行训练:确定与预设的分类模型相对应的用户的待预测属性值以及用户在所述K个簇类中所属的簇类;其中,每一所述簇类中包括若干个根据所述聚类算法进行聚类的样本用户;根据所述待预测属性值和用户所属的簇类所包含的若干...

【专利技术属性】
技术研发人员:方建生
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1