一种基于改进LDA的特征融合的用户画像构建方法及系统技术方案

技术编号:38133117 阅读:6 留言:0更新日期:2023-07-08 09:42
本发明专利技术公开了一种基于改进LDA的特征融合的用户画像构建方法及系统,涉及数据挖掘技术领域,包括:获取产品消费者用户数据并进行数据的预处理;提取用户的基础属性数据,根据用户的基础属性数据提取用户行为和兴趣特征;融合基础属性、行为和兴趣构建最终用户画像,分析画像,提供广告推荐维度。本发明专利技术提供的基于改进LDA的特征融合的用户画像构建方法通过改进概率主题模型,将消费者基本属性、行为数据和兴趣数据进行特征交叉融合。本发明专利技术不仅提高了用户画像构建的完整性和精准度,加深了商家对其消费者购买行为的理解,使其对产品进行针对行的优化;而且有助于商家制定精准的定向人群广告推荐策略,提高广告推荐准确度和转化效益。益。益。

【技术实现步骤摘要】
一种基于改进LDA的特征融合的用户画像构建方法及系统


[0001]本专利技术涉及数据挖掘
,具体为一种基于改进LDA的特征融合的用户画像构建方法及系统。

技术介绍

[0002]用户通过移动端在上网过程中留下的大量数据,包括身份数据、访问浏览数据、购买数据、社交数据等,在一定程度上反映了他们的生活习惯、消费意愿,用户画像是一种基于网络的虚拟用户形象,其建立在大量的用户数据基础之上,通过数据挖掘、机器学习、深度学习等技术处理,进而展示出用户特征。
[0003]构建用户画像,可以帮助商家更好地去了解自己的消费客户,在广告投放过程中进行人群定向,找到目标人群进行精准推荐和营销。
[0004]当前,构建用户画像常用如下几种模型,模型各有优势,基于数理统计的方法,通过对数据值进行量化处理进而分析用户特征,擅于处理结构化类型数据,但对非结构数据如图像、音频文本等无法分析;基于向量空间模型的方法,考虑了非结构化数据,将用户画像通过向量的形式表示出来;基于主题模型的方法,适用于处理非结构化数据类型,一定程度上使用较低的维度表示用户的模型,该模型可以将文本数据切分单词,根据单词主题概率,确定文本主题及其主题概率分布比例,该模型在自然语言处理领域有重要应用,LDA将文本表示为多个主题的混合随机分布,将主题表示为多个词语的混合概率分布,是一个典型的词袋模型;基于ontology的方法,可以使描述用户画像的标签体系更加层次化和具有关联性,但是过度依赖专家对于术语逻辑之间的界定;基于神经网络的方法,模拟了动物思维方式,结合了动物神经行为,优势在于该模型能够进行分布式存储和大规模的并行式数据处理和非线性运算;在网络高速发展的今天,用户在网络互动中产生的海量异构数据,已经不能用单一的方式进行描述,例如用户发布的文字、浏览的视频、关注的人群、购买的商品等;随着数据挖掘、机器学习等技术的应用,不仅对结构化类型数据,进一步地对非结构化类型进行数据挖掘显现出更大的价值。
[0005]本专利技术提出的基于改进LDA的特征融合的用户画像构建方法,将收集多方面的数据,对其不同类型的数据分别采取不同的建模方法,融合基础属性,兴趣,行为模型表示产品消费者的用户画像,提高了画像的完整性和精准度,构建适用于电商消费平台的用户画像。

技术实现思路

[0006]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0007]鉴于上述存在的问题,提出了本专利技术。
[0008]因此,本专利技术解决的技术问题是:如何加深商家对其消费者基本属性、行为方面和
兴趣心理方面的理解,使其对产品面向客户的方面进行优化,有助于商家制定精准的定向人群广告推荐策略,提高广告推荐准确度和转化效益。
[0009]为解决上述技术问题,本专利技术提供如下技术方案:一种基于改进LDA的特征融合的用户画像构建方法,包括:获取产品消费者用户数据并进行数据的预处理;提取用户的基础属性数据,根据用户的基础属性数据提取用户行为和兴趣特征;融合基础属性、行为和兴趣构建最终用户画像,分析画像,提供广告推荐维度。
[0010]作为本专利技术所述的基于改进LDA的特征融合的用户画像构建方法的一种优选方案,其中,所述获取产品消费者用户数据包括:采集平台用户的基底层础属性信息,采集用户在平台上的动态信息;所述信息包括性别、区域、年龄、上线活跃时间、历史点赞收藏数据、历史购买行为数据;所述预处理包括将收集到的与用户行为有关的数据进行拆分去重,从源数据中提取重点内容。
[0011]作为本专利技术所述的基于改进LDA的特征融合的用户画像构建方法的一种优选方案,其中,所述预处理还包括:进行数据清洗、切词、去停用词;所述进行数据清洗包括去除噪声和冗余数据,对数据进行筛选和校验;标准化数据,对缺失值进行补充,保证数据维度能够在同一基准;所述切词包括以合理的规则,将文本分割成多个含有独立意义的词;所述去停用词包括过滤对分类无意义的词,在数据处理的过程中不断维护和扩充停用词表。
[0012]作为本专利技术所述的基于改进LDA的特征融合的用户画像构建方法的一种优选方案,其中,所述基础属性数据包括:性别、区域、活跃时间、移动端型号、职业;所述提取用户行为和兴趣特征包括,基于改进的LDA模型提取用户行为特征和兴趣偏好特征;所述改进的LDA模型表示为,
[0013]其中,为触及人数,为画像精度,为时间,为兴趣行为特征维度;当满足触及人时的特征维度为,在画像精度为时特征维度为,则要保证特征维度的范围在。
[0014]作为本专利技术所述的基于改进LDA的特征融合的用户画像构建方法的一种优选方案,其中,所述提取用户行为和兴趣特征表示为:
[0015]按照人群特征进行分类表示为,
[0016]每个类别下的单个词,在整个预料集中的分布表示为,,其中,固定值表示数据集中的文本总数;表示单个文本;表示文本中的词语总数;表示主题,表示文本的词向量;表示主题分布,为的狄利克雷分布的超参数;表示词分布,为的狄利克雷分布的超参数,表示按照人群特征进行分类,表示每个类别下的单个词,在整个预料集中的分布。
[0017]作为本专利技术所述的基于改进LDA的特征融合的用户画像构建方法的一种优选方案,其中,所述构建最终用户画像包括:对用户兴趣偏好特征和购买行为特征进行选择和特征融合,生成用户画像模型;所述特征融合,表示为,,其中,表示兴趣偏好特征,表示购买行为特征,a,c表示兴趣偏好画像中不同集合的特征,表示购买行为特征,下标数字表示各文本数据数量,表示笛卡尔积。
[0018]作为本专利技术所述的基于改进LDA的特征融合的用户画像构建方法的一种优选方案,其中,所述构建最终用户画像表示为:,其中,表示基本属性特征,包括年龄、性别、地区,表示购买行为特征;表示兴趣偏好特征,参数表示时间段,表示画像特征维度,表示触及人数。
[0019]因此,本专利技术解决的技术问题是:如何从源数据中提取重点内容,将数据转化为统一,可识别的结构并且在得到一定触及的前提下有效地提取出与产品消费人群最相关的特征,去除冗余。
[0020]为解决上述技术问题,本专利技术提供如下技术方案:一种基于改进LDA的特征融合的用户画像构建系统,包括:数据获取模块,数据预处理模块,数据挖掘模块,数据分析模块;作为本专利技术所述的基于改进LDA的特征融合的用户画像构建系统的一种优选方案,其中,所述数据获取模块是获取用户数据的装置,用于提取用户行为模型和用户兴趣模型,将获取的数据传送至数据预处理模块;作为本专利技术所述的基于改进LDA的特征融合的用户画像构建系统的一种优选方案,其中,所述数据预处理模块是对存在缺失和冗余数据进行处理的装置,用于从数据获取模块中提取重点内容,将数据转化为统一的、可识别的结构;作为本专利技术所述的基于改进LDA的特征融合的用户画像构建系统的一种优选方案,其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进LDA的特征融合的用户画像构建方法,其特征在于,包括:获取产品消费者用户数据并进行数据的预处理;提取用户的基础属性数据,根据用户的基础属性数据提取用户行为和兴趣特征;融合基础属性、行为和兴趣构建最终用户画像,分析画像,提供广告推荐维度。2.如权利要求1所述的基于改进LDA的特征融合的用户画像构建方法,其特征在于,所述获取产品消费者用户数据包括:采集平台用户的基底层础属性信息,采集用户在平台上的动态信息;所述信息包括性别、区域、年龄、上线活跃时间、历史点赞收藏数据、历史购买行为数据;所述预处理包括将收集到的与用户行为有关的数据进行拆分去重,从源数据中提取重点内容。3.如权利要求1或2所述的基于改进LDA的特征融合的用户画像构建方法,其特征在于,所述预处理还包括:进行数据清洗、切词、去停用词;所述进行数据清洗包括去除噪声和冗余数据,对数据进行筛选和校验;标准化数据,对缺失值进行补充,保证数据维度能够在同一基准;所述切词包括以合理的规则,将文本分割成多个含有独立意义的词;所述去停用词包括过滤对分类无意义的词,在数据处理的过程中不断维护和扩充停用词表。4.如权利要求1所述的基于改进LDA的特征融合的用户画像构建方法,其特征在于,所述基础属性数据包括:性别、区域、活跃时间、移动端型号、职业;所述提取用户行为和兴趣特征包括,基于改进的LDA模型提取用户行为特征和兴趣偏好特征;所述改进的LDA模型表示为,c=f(e,f,t)其中,e为触及人数,f为画像精度,t为时间,c为兴趣行为特征维度;当满足触及人e时的特征维度为c0,在画像精度为f时特征维度为c
f
,则要保证特征维度的范围在[c0,c
f
]。5.如权利要求4所述的基于改进LDA的特征融合的用户画像构建方法,其特征在于,所述提取用户行为和兴趣特征表示为:按照人群特征进行分类表示为,每个类别下的单个词,在整个预料集中的分布表示为,
其中,固定值M表示数据集中的文本总数;m表示单个文本;N表示文本中的词语总数;z表示主题,w表示文本的词向量;θ表示主题分布,α为θ的狄利克雷分布的超参数;φ表示词分布,β为φ的狄利克雷分布的...

【专利技术属性】
技术研发人员:曹亚东马小宁孙知信孙哲赵学健宫婧汪胡青胡冰徐玉华
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1