用户画像模型的构建方法、设备及存储介质技术

技术编号:32508772 阅读:14 留言:0更新日期:2022-03-02 10:47
本发明专利技术公开了一种用户画像模型的构建方法、设备及存储介质,包括获取待分析用户的原始系统数据;基于原始系统数据构建用户特征数据集;对用户特征数据集进行特征提取得到用户特征数据子集;对用户特征数据子集进行特征筛选并确定其索引标签,生成用户画像数据集;基于机器学习技术对用户画像数据集进行训练;对训练数据进行归一化,并根据多类型的训练数据的权重值,对每一类型的训练数据的索引标签进行训练,得到用户画像模型。本发明专利技术通过在多个数据维度方面对特殊领域用户进行画像,构建可标签化的模型,使用户画像更具立体化,对于异构数据源可以快速形成智能画像生成模型,识别异常用户。异常用户。异常用户。

【技术实现步骤摘要】
用户画像模型的构建方法、设备及存储介质


[0001]本专利技术属于机器学习
,特别涉及一种用户画像模型的构建方法、系统、设备及存储介质。

技术介绍

[0002]机器学习是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一,用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。传统的用户画像技术主要依靠大数据及数据挖掘技术处理,例如,传统的用户画像技术主要是通过大数据进行画像,一般针对个人用户的历史数据,抽象出个人的偏好,活跃时间,活动范围等,通过标签的精细化处理,可以满足精准推送,但针对企业用户,基础数据来源广泛,结构差异性较大,内容也没有统一的规范,而是复杂多样。企业用户除了个人因素外,还有需要考虑环境、组织、个体间等影响因素,因此需要用户画像更具立体化,而传统的用户画像无法满足企业用户的需求。此外,虽然近年来在构建用户画像上已经出现了多种技术,但目前已有技术还具有一定的局限性,如数据碎片化、数据封闭、算法效率低等原因造成用户画像不够精准的问题,训练效率低,同时还没有完善的机制配合对实时用户做出反馈,因此存在实际转化率低等问题。

技术实现思路

[0003]为了解决上述问题,本专利技术提供一种用户画像模型的构建方法。该方法包括以下步骤:
>[0004]获取待分析用户的原始系统数据;
[0005]基于所述原始系统数据构建用户特征数据集;
[0006]对所述用户特征数据集进行特征提取,得到用户特征数据子集;
[0007]对所述用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集;
[0008]基于机器学习技术对所述用户画像数据集进行训练;
[0009]对训练数据进行归一化,并根据多个类型的训练数据的权重值,对每一类型的训练数据的索引标签进行训练,得到用户画像模型。
[0010]优选地,所述获取待分析用户的原始系统数据包括:
[0011]利用词袋模型从所述原始系统数据中获取待分析用户的原始文本数据。
[0012]优选地,基于所述原始系统数据构建用户特征数据集包括:
[0013]从所述原始系统数据中选取多个用户特征数据;
[0014]将多个所述用户特征数据基于数据分类创建用户特征数据集。
[0015]优选地,所述对所述用户特征数据集进行特征提取,得到用户特征数据子集包括:
[0016]采用主成分分析法从所述用户特征数据集中获取每个用户的关系特征、时间特征和关联度特征;
[0017]根据所述关联度特征从所述用户特征数据集中选取多个关键特征数据,并基于多个所述关键特征数据创建用户特征数据子集。
[0018]优选地,所述对所述用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集,包括:
[0019]采用信息增益方法计算所述用户特征数据子集中的属性特征数据信息增益;
[0020]基于所述信息增益选取多个用户特征数据;
[0021]通过调用逻辑回归算法生成每个用户特征数据的键值对,形成索引标签;
[0022]基于所述用户特征数据以及索引标签确定用户画像数据集。
[0023]优选地,所述基于所述信息增益选取多个用户特征数据,进一步包括:
[0024]给定数据集D,对属性子集A,根据其取值将数据集D分成了V个子集:D1,D2,

,D
v
,计算属性子集A的信息增益,其计算公式如下:
[0025][0026]式中,g(D,A)为最符合子集A的特征信息,H(D)为数据集D的特征信息,H(D|A)为数据集D与属性子集A关联性较小的特征信息,H(D
v
)为数据集中每个子集的特征信息,∣
·
∣表示集合大小,H(
·
)表示熵。
[0027]优选地,所述基于机器学习技术对所述用户画像数据集进行训练,得到用户画像模型包括:
[0028]将所述数据集进行标准化处理,并划分为训练数据和测试数据;
[0029]基于所述训练数据采用机器学习技术进行训练得到预测模型;
[0030]利用所述测试数据与预测模型进行匹配确定用户画像模型。
[0031]优选地,所述每一类型的训练数据的索引标签进行训练,进一步包括:
[0032]获取第ω类特征数据Π
ω
,将Π
ω
投影到内积空间
[0033]设置的训练的目标函数:
[0034][0035]式中,U为稀疏项约束参数,λ为索引标签Π
ω
中聚类约束参数,S
ω
为第ω类内积空间训练数据向量的评价矩阵,其第k行表示内积空间训练数据向量在构造标签中每个特征数据的权重值,特征数据标签特征数据的权重值,特征数据标签
[0036]对所述目标函数进行求解,即首先随机生成初始矩阵对WGT
ω
和S
ω
,其中,WGT
ω
是N
ω
×
TY矩阵,S
ω
是TY
×
N
ω
矩阵,TY是标签熵值;然后,相互迭代地更新WGT
ω
和S
ω
,求解最优的权重值矩阵WGT
ω
和评价矩阵S
ω
,使得目标函数值最小,将每个类型的训练数据的权重值矩阵WGT
ω
分别赋值到一个空矩阵当中,获得合成的权重值矩阵WGT,该权重值矩阵即为索引标签。
[0037]本专利技术还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
[0038]本专利技术还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
[0039]与现有技术相比,本专利技术提供的一种用户画像模型的构建方法、系统、设备及存储介质,针对工程审计用户,通过在多个数据维度方面对相关用户进行画像,通过特征工程构建了一个可标签化的模型,该模型使创建的用户画像更具立体化,通过本专利技术的用户画像构建方法,对于数据来源广泛,结构差异性大,内容复杂多样的异构数据源,可以快速形成智能画像生成模型,可用于快速识别异常用户。
附图说明
[0040]图1是根据本专利技术一实施例提供的一种用户画像模型的构建方法流程图;
[0041]图2是根据本专利技术一实施例提供的构建用户特征数据集的方法流程图;
[0042]图3是根据本专利技术一实施例提供的特征提取方法流程图;
[0043]图4是根据本发本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用户画像模型的构建方法,其特征在于,包括以下步骤:获取待分析用户的原始系统数据;基于所述原始系统数据构建用户特征数据集;对所述用户特征数据集进行特征提取,得到用户特征数据子集;对所述用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集;基于机器学习技术对所述用户画像数据集进行训练;对训练数据进行归一化,并根据多个类型的训练数据的权重值,对每一类型的训练数据的索引标签进行训练,得到用户画像模型。2.根据权利要求1所述的方法,其特征在于,所述获取待分析用户的原始系统数据包括:利用词袋模型从所述原始系统数据中获取待分析用户的原始文本数据。3.根据权利要求1所述的方法,其特征在于,所述基于所述原始系统数据构建用户特征数据集包括:从所述原始系统数据中选取多个用户特征数据;将多个所述用户特征数据基于数据分类创建用户特征数据集。4.根据权利要求1所述的方法,其特征在于,所述对所述用户特征数据集进行特征提取,得到用户特征数据子集包括:采用主成分分析法从所述用户特征数据集中获取每个用户的关系特征、时间特征和关联度特征;根据所述关联度特征从所述用户特征数据集中选取多个关键特征数据,并基于多个所述关键特征数据创建用户特征数据子集。5.根据权利要求1所述的方法,其特征在于,所述对所述用户特征数据子集进行特征筛选,并确定其索引标签,生成用户画像数据集,包括:采用信息增益方法计算所述用户特征数据子集中的属性特征数据信息增益;基于所述信息增益选取多个用户特征数据;通过调用逻辑回归算法生成每个用户特征数据的键值对,形成索引标签;基于所述用户特征数据以及索引标签确定用户画像数据集。6.根据权利要求1所述的方法,其特征在于,所述基于所述信息增益选取多个用户特征数据,进一步包括:给定数据集D,对属性子集A,根据其取值将数据集D分成了V个子集:D1,D2,

,D
v
,计算属性子集A的信息增益,其计算公式如下:式中,g(D,A)为最符合子集A的特征信息,H(D)为数据集D的特征信息,H(D|A)为数据集D与属性子集A关联性较小的特征信息,H(D
v
)为数据集中每个子集的特征信息,∣
·...

【专利技术属性】
技术研发人员:侯本忠张永强唐戈燕刘甜甜张帆田桂申宋猛白雪娇
申请(专利权)人:国网内蒙古东部电力有限公司国家电网有限公司大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1