基于word2vec的用户缺失画像的补充方法和相关设备技术

技术编号：21034597 阅读：41 留言：0更新日期：2019-05-04 05:32

本申请中提供了一种基于word2vec的用户缺失画像的补充方法装置、计算机设备和可读存储介质，其中，方法包括：调取预先录入的第一用户画像；将各第一用户画像值输入预设对应表中筛选得到对应的第一词汇，并将各第一词汇按照预设排列顺序构建语料库；将语料库输入预先基于word2vec构建的预测模型中进行计算，输出各缺失词汇分别对应的预测词汇；将各预测词汇输入所述对应表中筛选得到对应的第一预测画像值；将各第一预测画像值分别替换第一用户画像中对应的第一缺失画像值。本申请通过调用基于word2vec思想构建的预测模型，能够根自动根据用户已有的画像信息，选择预测画像信息用以补全缺失画像信息，具有优秀的准确率和完整率，并且有效提高工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于word2vec的用户缺失画像的补充方法和相关设备
本申请涉及数据分析与处理
，特别涉及一种基于word2vec的用户缺失画像的补充方法和相关设备。
技术介绍
用户画像又称用户角色，主要表征了用户的具体相关信息，比如年龄、经济收入情况或消费倾向等。作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像在各领域得到了广泛的应用。用户画像主要是从公开渠道获得，比如用户的注册信息、购物历史记录，用户画像缺失度较大。现有的对于用户画像缺失的补充方法，主要是使用传统统计学的方法，效率低下，且未能考虑到用户整体画像相互之间的影响，补充的准确性较低。
技术实现思路
本申请的主要目的为提供一种基于word2vec的用户缺失画像的补充方法、装置、计算机设备，旨在解决现有用户缺失画像补充方法效率低下和准确性低的弊端。为实现上述目的，本申请提供了一种基于word2vec的用户缺失画像的补充方法，其特征在于，包括：调取预先录入的第一用户画像，所述第一用户画像由第一预设数量的第一用户画像值按照预设排列顺序组成，所述第一用户画像包括多个第一缺失画像值和多个第一已知画像值；将各...

【技术保护点】
1.一种基于word2vec的用户缺失画像的补充方法，其特征在于，包括：调取预先录入的第一用户画像，所述第一用户画像由第一预设数量的第一用户画像值按照预设排列顺序组成，所述第一用户画像包括多个第一缺失画像值和多个第一已知画像值；将各所述第一用户画像值输入预设对应表中筛选得到对应的第一词汇，并将各所述第一词汇按照所述预设排列顺序构建语料库，所述语料库包括各所述第一缺失画像值对应的缺失词汇和各所述第一已知画像值对应的第一已知词汇，所述预设对应表由预先构建的多组用户画像值对应词汇组成；将所述语料库输入预先基于word2vec构建的预测模型中进行计算，输出各所述缺失词汇分别对应的预测词汇；将各所述预测...

【技术特征摘要】
1.一种基于word2vec的用户缺失画像的补充方法，其特征在于，包括：调取预先录入的第一用户画像，所述第一用户画像由第一预设数量的第一用户画像值按照预设排列顺序组成，所述第一用户画像包括多个第一缺失画像值和多个第一已知画像值；将各所述第一用户画像值输入预设对应表中筛选得到对应的第一词汇，并将各所述第一词汇按照所述预设排列顺序构建语料库，所述语料库包括各所述第一缺失画像值对应的缺失词汇和各所述第一已知画像值对应的第一已知词汇，所述预设对应表由预先构建的多组用户画像值对应词汇组成；将所述语料库输入预先基于word2vec构建的预测模型中进行计算，输出各所述缺失词汇分别对应的预测词汇；将各所述预测词汇输入所述预设对应表中筛选得到对应的第一预测画像值；将各所述第一预测画像值分别替换所述第一用户画像中对应的所述第一缺失画像值。2.根据权利要求1所述的基于word2vec的用户缺失画像的补充方法，其特征在于，所述将所述语料库输入基于word2vec构建的预测模型中进行计算，输出各所述缺失词汇分别对应的预测词汇的步骤，包括：将所述语料库输入预先基于word2vec构建的所述预测模型；利用所述预测模型，从所述语料库中按照所述预设排列顺序筛选各所述缺失词汇相邻出现的第二预设数量的所述第一已知词汇，并根据各所述已知词汇获得至少一个初始预测词汇以及各初始预测词汇分别对应的出现概率；分别比对各所述出现概率，选择所述出现概率最大的所述初始预测词汇作为所述预测词汇。3.根据权利要求1所述的基于word2vec的用户缺失画像的补充方法，其特征在于，所述将所述语料库输入预先基于word2vec构建的预测模型中进行计算，输出各所述缺失词汇分别对应的预测词汇的步骤之前，包括：从原始画像表中筛选画像饱和度大于阈值的第三预设数量的第二用户画像，所述原始画像表由开发人员根据预先收集的多个原始用户画像构建，所述第二用户画像由所述第一预设数量的第二用户画像值按照所述预设排列顺序组成；将各所述第二用户画像值输入所述预设对应表中筛选得到对应的第二词汇；将各所述第二词汇按照预设规则构建训练样本，同时分别给予各所述第二词汇对应的初始向量；识别各所述初始向量，并使用霍夫曼树分类方法训练所述训练样本得到初始预测模型；判断所述初始预测模型当前的第一准确率是否小于预设准确率；若小于预设准确率，则扩大所述训练样本重新训练所述初始预测模型，得到二次训练模型；判断所述二次训练模型当前的第二准确率是否满足预设要求，所述预设要求为所述第二准确率等于所述预设准确率或所述第二准确率与所述第一准确率之间的差值是否小于预设差值；若满足预设要求，则将所述二次训练模型设定为所述预测模型。4.根据权利要求3所述的基于word2vec的用户缺失画像的补充方法，其特征在于，所述将各所述第二词汇按照预设规则构建训练样本的步骤，包括：将各所述第二词汇分别设为输出值；按照所述预设排列顺序，分别选择所述输出值相邻出现的第四预设数量的所述第二词汇作为输入值；将各所述输入值分别与各输出值对应关联形成多组训练值，并汇总各组所述训练值形成所述训练...

【专利技术属性】
技术研发人员：王建明，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人