一种基于改进LDA的特征融合的用户画像构建方法及系统技术方案

技术编号：38133117 阅读：6 留言：0更新日期：2023-07-08 09:42

本发明专利技术公开了一种基于改进LDA的特征融合的用户画像构建方法及系统，涉及数据挖掘技术领域，包括：获取产品消费者用户数据并进行数据的预处理；提取用户的基础属性数据，根据用户的基础属性数据提取用户行为和兴趣特征；融合基础属性、行为和兴趣构建最终用户画像，分析画像，提供广告推荐维度。本发明专利技术提供的基于改进LDA的特征融合的用户画像构建方法通过改进概率主题模型，将消费者基本属性、行为数据和兴趣数据进行特征交叉融合。本发明专利技术不仅提高了用户画像构建的完整性和精准度，加深了商家对其消费者购买行为的理解，使其对产品进行针对行的优化；而且有助于商家制定精准的定向人群广告推荐策略，提高广告推荐准确度和转化效益。益。益。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进LDA的特征融合的用户画像构建方法及系统

[0001]本专利技术涉及数据挖掘
，具体为一种基于改进LDA的特征融合的用户画像构建方法及系统。

技术介绍

[0002]用户通过移动端在上网过程中留下的大量数据，包括身份数据、访问浏览数据、购买数据、社交数据等，在一定程度上反映了他们的生活习惯、消费意愿，用户画像是一种基于网络的虚拟用户形象，其建立在大量的用户数据基础之上，通过数据挖掘、机器学习、深度学习等技术处理，进而展示出用户特征。
[0003]构建用户画像，可以帮助商家更好地去了解自己的消费客户，在广告投放过程中进行人群定向，找到目标人群进行精准推荐和营销。
[0004]当前，构建用户画像常用如下几种模型，模型各有优势，基于数理统计的方法，通过对数据值进行量化处理进而分析用户特征，擅于处理结构化类型数据，但对非结构数据如图像、音频文本等无法分析；基于向量空间模型的方法，考虑了非结构化数据，将用户画像通过向量的形式表示出来；基于主题模型的方法，适用于处理非结构化数据类型，一定程度上使用较低的维度表示用户的模型，该模型可以将文本数据切分单词，根据单词主题概率，确定文本主题及其主题概率分布比例，该模型在自然语言处理领域有重要应用，LDA将文本表示为多个主题的混合随机分布，将主题表示为多个词语的混合概率分布，是一个典型的词袋模型；基于ontology的方法，可以使描述用户画像的标签体系更加层次化和具有关联性，但是过度依赖专家对于术语逻辑之间的界定；基于神经网络的方法，模拟了动物思维方式，结合...

【技术保护点】

【技术特征摘要】
1.一种基于改进LDA的特征融合的用户画像构建方法，其特征在于，包括：获取产品消费者用户数据并进行数据的预处理；提取用户的基础属性数据，根据用户的基础属性数据提取用户行为和兴趣特征；融合基础属性、行为和兴趣构建最终用户画像，分析画像，提供广告推荐维度。2.如权利要求1所述的基于改进LDA的特征融合的用户画像构建方法，其特征在于，所述获取产品消费者用户数据包括：采集平台用户的基底层础属性信息，采集用户在平台上的动态信息；所述信息包括性别、区域、年龄、上线活跃时间、历史点赞收藏数据、历史购买行为数据；所述预处理包括将收集到的与用户行为有关的数据进行拆分去重，从源数据中提取重点内容。3.如权利要求1或2所述的基于改进LDA的特征融合的用户画像构建方法，其特征在于，所述预处理还包括：进行数据清洗、切词、去停用词；所述进行数据清洗包括去除噪声和冗余数据，对数据进行筛选和校验；标准化数据，对缺失值进行补充，保证数据维度能够在同一基准；所述切词包括以合理的规则，将文本分割成多个含有独立意义的词；所述去停用词包括过滤对分类无意义的词，在数据处理的过程中不断维护和扩充停用词表。4.如权利要求1所述的基于改进LDA的特征融合的用户画像构建方法，其特征在于，所述基础属性数据包括：性别、区域、活跃时间、移动端型号、职业；所述提取用户行为和兴趣特征包括，基于改进的LDA模型提取用户行为特征和兴趣偏好特征；所述改进的LDA模型表示为，c＝f(e，f，t)其中，e为触及人数，f为画像精度，t为时间，c为兴趣行为特征维度；当满足触及人e时的特征维度为c0，在画像精度为f时特征维度为c
f
，则要保证特征维度的范围在[c0，c
f
]。5.如权利要求4所述的基于改进LDA的特征融合的用户画像构建方法，其特征在于，所述提取用户行为和兴趣特征表示为：按照人群特征进行分类表示为，每个类别下的单个词，在整个预料集中的分布表示为，
其中，固定值M表示数据集中的文本总数；m表示单个文本；N表示文本中的词语总数；z表示主题，w表示文本的词向量；θ表示主题分布，α为θ的狄利克雷分布的超参数；φ表示词分布，β为φ的狄利克雷分布的...

【专利技术属性】
技术研发人员：曹亚东，马小宁，孙知信，孙哲，赵学健，宫婧，汪胡青，胡冰，徐玉华，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人