【技术实现步骤摘要】
基于多模型联邦集成的用户画像方法
[0001]本专利技术涉及一种基于多模型联邦集成的用户画像方法,属于大数据分析
技术介绍
[0002]1.用户画像
[0003]用户画像(英文名称User Profile),它是根据用户人口学特征(基本属性)、网络浏览内容(行为特征)、网络社交活动(社交属性和兴趣偏好)和消费行为(消费信息)等信息而抽象出的一个标签化的用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理,为进一步准确快速地分析用户的行为和习惯提供重要的数据库;研究结果可以帮助企业快速找到分类的用户群体和用户当前的需求,同时让用户对自己有一个深刻的了解;同时也是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。
[0004]用户画像是在创造一系列的“典型”或者“象征性”的用户,但用户画像的一个更高层次的功能在于使用用户画像融合边缘情况的行为或需求。 />[0005]一般本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于多模型联邦集成的用户画像方法,其特征在于:该方法具体包括:步骤S1.获取数据集:获取原始数据得到用户行为信息;步骤S2.预处理,包括分词及停用词处理;步骤S3.构建dm_bpnn模型和dbow_bpnn模型所述的dm_bpnn模型作为一个基模型,具体的构建过程如下:对PV
‑
DM模型进行改进,在查询词文档向量的训练过程中,每个查询词都会被映射到一个唯一的向量w,w为单词矩阵W中的一行;查询词组合后的文档也被映射到一个唯一的向量q,q为查询词文档矩阵Q中的一行;取消窗口滑动,限制窗口每次只能训练一个查询词,每次从查询词文档中随机抽取一个查询词训练,这种引用的方法叫做分布式记忆模型;在训练窗口内,采用随机梯度下降方法来对查询词向量和查询词文档向量进行训练,并通过反向传播得到梯度对分布式记忆模型进行更新,查询词向量模型的目标函数是使得平局对数概率最大化,目标函数公式为:其中,{w1,w1,
…
,wT}是一个输入模型训练的查询词文档向量,T为文档向量总数,w
t
为某个词向量;在预测阶段,只需要使用已经训练好的分布式记忆模型对新的查询词文档进行向量计算,然后再通过矩阵Q中的文档向量q和矩阵W中的词向量w进行平均池化或拼接来实现对上下文中的下一个单词的预测任务,通过多分类器softmax来完成:其中指的是单词的未归一化的对数概率;y=b+Uh(w
t
‑
k
,
…
,w
t+k
;W)其中b和U为softmax的两个参数;h函数为矩阵W中单词向量w的平均或者拼接;采用hierarchical softmax来逼近softmax函数,最终取得softmax权重矩阵;然后固定矩阵W和softmax权重矩阵,使用梯度下降来训练测试集查询文档向量,选择BP神经网络算法作为分类器来对用户画像的标签进行预测;所述的dbow_bpnn模型作为第二个基模型,构建过程如下:;对PV
‑
DBOW训练方法进行改进,具体做法是:第一步,将查询词进行bigram处理;第二步,将bigram特征拼接起来,作为训练模型的输出层的标签进行训练,每当训练窗口经过一个bigram特征时,可以利用反向传播算法得到梯度对查询词文档向量和输出层的权重矩阵进行更新,经过t轮迭代后,训练好的查询词文档向量Q也就是需要获取的查询文档的向量表示;第三步,使用BP神经网络算法作为分类器来对用户画像的标签进行预测;步骤S4.TF
‑
IDF和标记词嵌入组合使用文本TF
‑
IDF值和标记词...
【专利技术属性】
技术研发人员:李刚,李雄,
申请(专利权)人:中科紫东信息技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。