一种用户标签缺失数据填补方法及系统技术方案

技术编号:38266388 阅读:11 留言:0更新日期:2023-07-27 10:23
本发明专利技术提供了一种用户标签缺失数据填补方法及系统,方法包括采集用户历史标签;对用户历史标签进行预处理,以得到多个特征;计算不同特征的相似度,以得到特征权重文件;获取标签查询请求;根据标签查询请求获取多个待查询用户标签;对待查询用户标签进行排序;利用特征权重文件对排序后的待查询用户标签进行填补。该方法结合离线计算和实时填补技术,通过填补用户标签中缺失的值来提高用户标签的饱和度,改善用户标签的稀疏性。改善用户标签的稀疏性。改善用户标签的稀疏性。

【技术实现步骤摘要】
一种用户标签缺失数据填补方法及系统


[0001]本专利技术属于计算机
,具体涉及一种用户标签缺失数据填补方法及系统。

技术介绍

[0002]目前用户标签广泛应用于画像人群分析、建模等方法中。用户标签是对用户的属性、行为、偏好等进行的标准化定义,用于描述用户特征。但是目前的用户标签饱和度较低,不能满足画像人群分析、建模等方法的要求。

技术实现思路

[0003]针对现有技术中的缺陷,本专利技术提供一种用户标签缺失数据填补方法及系统,提高用户标签的饱和度。
[0004]第一方面,一种用户标签缺失数据填补方法,包括:
[0005]采集用户历史标签;
[0006]对用户历史标签进行预处理,以得到多个特征;
[0007]计算不同特征的相似度,以得到特征权重文件;
[0008]获取标签查询请求;
[0009]根据标签查询请求获取多个待查询用户标签;
[0010]对待查询用户标签进行排序;
[0011]利用特征权重文件对排序后的待查询用户标签进行填补。
[0012]进一步地,对用户历史标签进行预处理,以得到多个特征具体包括:
[0013]确定样本量;
[0014]根据样本量对用户历史标签进行抽样和过滤,以得到特征;
[0015]根据所有特征构建样本集。
[0016]进一步地,对用户历史标签进行抽样和过滤,以得到特征具体包括:
[0017]对用户历史标签进行分层,逐层抽取用户历史标签,以得到列抽样结果;
[0018]分别将每个用户ID与列抽样结果进行匹配,以得到每个用户ID匹配的用户历史标签数量;
[0019]按照用户历史标签数量对用户ID进行降序排列;
[0020]按照排列顺序依次在列抽样结果中抽取每个用户ID的用户历史标签,以得到行抽样结果;
[0021]按照过滤规则对行抽样结果进行过滤,以得到特征。
[0022]进一步地,计算不同特征的相似度,以得到特征权重文件具体包括:
[0023]分别计算任意两个特征之间的余弦相似度;
[0024]根据所有余弦相似度构建特征相似度矩阵;
[0025]对特征相似度矩阵进行归一化,以得到特征权重文件。
[0026]进一步地,对待查询用户标签进行排序具体包括:
[0027]获取特征权重文件中,待查询用户标签的相似度;
[0028]将待查询用户标签按照相似度进行降序排列。
[0029]进一步地,利用特征权重文件对排序处理后的待查询用户标签进行填补具体包括:
[0030]分别提取待查询用户标签的标签值,根据所有标签值构建标签值矩阵;
[0031]将待查询用户标签的相似度与标签值矩阵相乘,得到标签填补值;
[0032]利用标签填补值对待查询用户标签进行填补。
[0033]第二方面,一种用户标签缺失数据填补系统,包括:
[0034]预训练模块:用于采集用户历史标签;对用户历史标签进行预处理,以得到多个特征;计算不同特征的相似度,以得到特征权重文件;
[0035]实时填补模块:用于获取标签查询请求;根据标签查询请求获取多个待查询用户标签;对待查询用户标签进行排序;利用特征权重文件对排序后的待查询用户标签进行填补。
[0036]进一步地,预训练模块具体用于:
[0037]确定样本量;
[0038]对用户历史标签进行分层,逐层抽取用户历史标签,以得到列抽样结果;
[0039]分别将每个用户ID与列抽样结果进行匹配,以得到每个用户ID匹配的用户历史标签数量;
[0040]按照用户历史标签数量对用户ID进行降序排列;
[0041]按照排列顺序依次在列抽样结果中抽取每个用户ID的用户历史标签,以得到行抽样结果;
[0042]按照过滤规则对行抽样结果进行过滤,以得到特征;特征的数量等于样本量;
[0043]根据所有特征构建样本集。
[0044]进一步地,预训练模块具体用于:
[0045]分别计算任意两个特征之间的余弦相似度;
[0046]根据所有余弦相似度构建特征相似度矩阵;
[0047]对特征相似度矩阵进行归一化,以得到特征权重文件。
[0048]进一步地,实时填补模块具体用于:
[0049]获取特征权重文件中,待查询用户标签的相似度;
[0050]将待查询用户标签按照相似度进行降序排列;
[0051]分别提取待查询用户标签的标签值,根据所有标签值构建标签值矩阵;
[0052]将待查询用户标签的相似度与标签值矩阵相乘,得到标签填补值;
[0053]利用标签填补值对待查询用户标签进行填补。
[0054]由上述技术方案可知,本专利技术提供的用户标签缺失数据填补方法及系统,结合离线计算和实时填补技术,通过填补用户标签中缺失的值来提高用户标签的饱和度,改善用户标签的稀疏性。
附图说明
[0055]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体
实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
[0056]图1为实施例提供的用户标签缺失数据填补方法的流程图。
[0057]图2为实施例提供的用户历史标签预处理方法的流程图。
[0058]图3为实施例提供的用户历史标签抽样过滤方法的流程图。
[0059]图4为实施例提供的特征权重文件生成方法的流程图。
[0060]图5为实施例提供的待查询用户标签排序方法的流程图。
[0061]图6为实施例提供的待查询用户标签填补方法的流程图。
[0062]图7为实施例提供的用户标签缺失数据填补系统的模块框图。
具体实施方式
[0063]下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。
[0064]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0065]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0066]如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户标签缺失数据填补方法,其特征在于,包括:采集用户历史标签;对所述用户历史标签进行预处理,以得到多个特征;计算不同特征的相似度,以得到特征权重文件;获取标签查询请求;根据所述标签查询请求获取多个待查询用户标签;对所述待查询用户标签进行排序;利用所述特征权重文件对排序后的待查询用户标签进行填补。2.根据权利要求1所述用户标签缺失数据填补方法,其特征在于,所述对所述用户历史标签进行预处理,以得到多个特征具体包括:确定样本量;根据所述样本量对所述用户历史标签进行抽样和过滤,以得到所述特征;根据所有所述特征构建样本集。3.根据权利要求2所述用户标签缺失数据填补方法,其特征在于,所述对所述用户历史标签进行抽样和过滤,以得到所述特征具体包括:对所述用户历史标签进行分层,逐层抽取所述用户历史标签,以得到列抽样结果;分别将每个用户ID与列抽样结果进行匹配,以得到每个用户ID匹配的用户历史标签数量;按照所述用户历史标签数量对用户ID进行降序排列;按照排列顺序依次在所述列抽样结果中抽取每个用户ID的用户历史标签,以得到行抽样结果;按照过滤规则对所述行抽样结果进行过滤,以得到所述特征。4.根据权利要求1所述用户标签缺失数据填补方法,其特征在于,所述计算不同特征的相似度,以得到特征权重文件具体包括:分别计算任意两个所述特征之间的余弦相似度;根据所有余弦相似度构建特征相似度矩阵;对所述特征相似度矩阵进行归一化,以得到所述特征权重文件。5.根据权利要求1所述用户标签缺失数据填补方法,其特征在于,所述对所述待查询用户标签进行排序具体包括:获取所述特征权重文件中,所述待查询用户标签的相似度;将所述待查询用户标签按照相似度进行降序排列。6.根据权利要求5所述用户标签缺失数据填补方法,其特征在于,所述利用所述特征权重文件对排序处理后的待查询用户标签进行填补具体包括:分别提取所述待查询用户标签的...

【专利技术属性】
技术研发人员:陈辞罗伟东陈光炎
申请(专利权)人:深圳市和讯华谷信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1