一种用户标签缺失数据填补方法及系统技术方案

技术编号：38266388 阅读：11 留言：0更新日期：2023-07-27 10:23

本发明专利技术提供了一种用户标签缺失数据填补方法及系统，方法包括采集用户历史标签；对用户历史标签进行预处理，以得到多个特征；计算不同特征的相似度，以得到特征权重文件；获取标签查询请求；根据标签查询请求获取多个待查询用户标签；对待查询用户标签进行排序；利用特征权重文件对排序后的待查询用户标签进行填补。该方法结合离线计算和实时填补技术，通过填补用户标签中缺失的值来提高用户标签的饱和度，改善用户标签的稀疏性。改善用户标签的稀疏性。改善用户标签的稀疏性。

全部详细技术资料下载

【技术实现步骤摘要】
一种用户标签缺失数据填补方法及系统

[0001]本专利技术属于计算机
，具体涉及一种用户标签缺失数据填补方法及系统。

技术介绍

[0002]目前用户标签广泛应用于画像人群分析、建模等方法中。用户标签是对用户的属性、行为、偏好等进行的标准化定义，用于描述用户特征。但是目前的用户标签饱和度较低，不能满足画像人群分析、建模等方法的要求。

技术实现思路

[0003]针对现有技术中的缺陷，本专利技术提供一种用户标签缺失数据填补方法及系统，提高用户标签的饱和度。
[0004]第一方面，一种用户标签缺失数据填补方法，包括：
[0005]采集用户历史标签；
[0006]对用户历史标签进行预处理，以得到多个特征；
[0007]计算不同特征的相似度，以得到特征权重文件；
[0008]获取标签查询请求；
[0009]根据标签查询请求获取多个待查询用户标签；
[0010]对待查询用户标签进行排序；
[0011]利用特征权重文件对排序后的待查询用户标签进行填补。
[0012]进一步地，对用户历史标签进行预处理，以得到多个特征具体包括：
[0013]确定样本量；
[0014]根据样本量对用户历史标签进行抽样和过滤，以得到特征；
[0015]根据所有特征构建样本集。
[0016]进一步地，对用户历史标签进行抽样和过滤，以得到特征具体包括：
[0017]对用户历史标签进行分层，逐层抽取用户历史标签，以得到列抽样结果；...

【技术保护点】

【技术特征摘要】
1.一种用户标签缺失数据填补方法，其特征在于，包括：采集用户历史标签；对所述用户历史标签进行预处理，以得到多个特征；计算不同特征的相似度，以得到特征权重文件；获取标签查询请求；根据所述标签查询请求获取多个待查询用户标签；对所述待查询用户标签进行排序；利用所述特征权重文件对排序后的待查询用户标签进行填补。2.根据权利要求1所述用户标签缺失数据填补方法，其特征在于，所述对所述用户历史标签进行预处理，以得到多个特征具体包括：确定样本量；根据所述样本量对所述用户历史标签进行抽样和过滤，以得到所述特征；根据所有所述特征构建样本集。3.根据权利要求2所述用户标签缺失数据填补方法，其特征在于，所述对所述用户历史标签进行抽样和过滤，以得到所述特征具体包括：对所述用户历史标签进行分层，逐层抽取所述用户历史标签，以得到列抽样结果；分别将每个用户ID与列抽样结果进行匹配，以得到每个用户ID匹配的用户历史标签数量；按照所述用户历史标签数量对用户ID进行降序排列；按照排列顺序依次在所述列抽样结果中抽取每个用户ID的用户历史标签，以得到行抽样结果；按照过滤规则对所述行抽样结果进行过滤，以得到所述特征。4.根据权利要求1所述用户标签缺失数据填补方法，其特征在于，所述计算不同特征的相似度，以得到特征权重文件具体包括：分别计算任意两个所述特征之间的余弦相似度；根据所有余弦相似度构建特征相似度矩阵；对所述特征相似度矩阵进行归一化，以得到所述特征权重文件。5.根据权利要求1所述用户标签缺失数据填补方法，其特征在于，所述对所述待查询用户标签进行排序具体包括：获取所述特征权重文件中，所述待查询用户标签的相似度；将所述待查询用户标签按照相似度进行降序排列。6.根据权利要求5所述用户标签缺失数据填补方法，其特征在于，所述利用所述特征权重文件对排序处理后的待查询用户标签进行填补具体包括：分别提取所述待查询用户标签的...

【专利技术属性】
技术研发人员：陈辞，罗伟东，陈光炎，
申请(专利权)人：深圳市和讯华谷信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人