一种标签的生成方法及系统技术方案

技术编号:24614037 阅读:24 留言:0更新日期:2020-06-24 01:25
本发明专利技术实施例公开了一种标签的生成方法及系统,所述方法包括,获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗;根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征;根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练;使用训练后的逻辑回归分类模型进行预测,生成标签。解决了便于对电商用户的基础信息标签进行预测和优化的问题,大大提高了标签的准确性和完整性。

A label generation method and system

【技术实现步骤摘要】
一种标签的生成方法及系统
本专利技术涉及计算机领域,具体涉及一种标签的生成方法及系统。
技术介绍
在电商的会员体系中,会经常使用到会员的基础信息,具体会使用到一种标签系统,通过各种标签来将用户的信息分解并存储在数据库中,以用户性别为例,传统的电商都是人工录取用户性别,或者注册信息识别,然后将性别标签维护成初始结果,并落入离线表,几乎不会再改动。如此就带来了诸多不便,比如由于是人工录入的数据,有错误的可能性与风险大大提升;如果使用会员的注册信息,则会有隐私相关的问题,导致很多缺失值;同时电商的购物行为,并不一定和实际的性别相符,也会导致误差。因此迫切需要一个解决方案来对电商用户的基础信息标签进行预测和优化,提升标签的完整性和准确性。
技术实现思路
本专利技术的实施例提供一种标签的生成方法及系统,解决了便于对电商用户的基础信息标签进行预测和优化的问题。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术的实施例提供一种标签的生成方法,所述方法包括:获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗;根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征;根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练;使用训练后的逻辑回归分类模型进行预测,生成标签。结合第一方面,作为本专利技术实施例的第一种可实现方案,所述获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗,具体包括:获取用户行为和日志信息,过滤处理成用户的基本信息和行为特征数据;将所述用户的基本信息和行为特征数据进行清洗,去除空值、重复值和异常值;将所述用户的基本信息和行为特征数据进行预处理。结合第一方面的第一种可实现方案,作为本专利技术实施例的第二种可实现方案,所述根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征,具体包括:通过预设特征的方式,选择逻辑回归分类模型使用的特征。结合第一方面的第一种可实现方案,作为本专利技术实施例的第三种可实现方案,所述根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征,具体包括:根据所述用户的基本信息和行为特征数据,通过使用GBDT算法,计算得到每个特征的特征重要度;根据所述特征重要度,选择特征重要度高的特征作为逻辑回归分类模型使用的特征。结合第一方面的第一种可实现方案,作为本专利技术实施例的第四种可实现方案,所述根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练,具体包括:预设所述逻辑回归分类模型的超参数至少一个;根据所述选择的特征和逻辑回归分类模型,将所述特征作为逻辑回归分类模型的参数,结合预处理后的用户基本信息,将所述预设的超参数一一代入训练,得到训练后的逻辑回归分类模型;比较不同超参数训练后的逻辑回归分类模型,选择最优的模型和超参数,得到最优逻辑回归分类模型。第二方面,本专利技术的实施例还提供一种标签的生成系统,所述系统包括:清洗模块,用于获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗;选择模块,用于根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征;训练模块,用于根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练;生成模块,用于使用训练后的逻辑回归分类模型进行预测,生成标签。结合第二方面,作为本专利技术实施例的第一种可实现方案,所述清洗模块,具体包括:过滤单元,用于获取用户行为和日志信息,过滤处理成用户的基本信息和行为特征数据;清洗单元,用于将所述用户的基本信息和行为特征数据进行清洗,去除空值、重复值和异常值;预处理单元,用于将所述用户的基本信息和行为特征数据进行预处理。结合第二方面的第一种可实现方案,作为本专利技术实施例的第二种可实现方案,所述选择模块,进一步包括:预设单元,用于通过预设特征的方式,选择逻辑回归分类模型使用的特征。结合第二方面的第一种可实现方案,作为本专利技术实施例的第三种可实现方案,所述选择模块,进一步包括:计算单元,用于根据所述用户的基本信息和行为特征数据,通过使用GBDT算法,计算得到每个特征的特征重要度;选择单元,用于根据所述特征重要度,选择特征重要度高的特征作为逻辑回归分类模型使用的特征。结合第二方面的第一种可实现方案,作为本专利技术实施例的第四种可实现方案,所述训练模块,具体包括:设置单元,用于预设所述逻辑回归分类模型的超参数至少一个;训练单元,用于根据所述选择的特征和逻辑回归分类模型,将所述特征作为逻辑回归分类模型的参数,结合预处理后的用户基本信息,将所述预设的超参数一一代入训练,得到训练后的逻辑回归分类模型;调优单元,用于比较不同超参数训练后的逻辑回归分类模型,选择最优的模型和超参数,得到最优逻辑回归分类模型。本专利技术实施例提供的一种标签的生成方法及系统,解决了便于对电商用户的基础信息标签进行预测和优化的问题。相比于现有技术,在本专利技术实施中,通过对数据进行清洗预处理,然后放入逻辑回归分类模型中进行训练,最后再使用训练好的逻辑回归分类模型进行预测,实现了可以每天计算预测新注册的用户,优化更新老用户的错误信息,同时当用户购物性别因为换人使用而设备账号不变的情况,也可以及时的更新用户的性别标签,使得标签的准确性和完整性大大提高。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例的标签的生成方法的流程框图;图2为图1中步骤S130的流程框图;图3为本专利技术实施例的标签的生成系统的结构框图;图4为本专利技术另一实施例的标签的生成系统的结构框图。具体实施方式为使本领域技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术作进一步详细描述。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的提前下所获得的实施例,都应属于本专利技术保护的范围。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。在现有的电商会员体系中,现有的会员的基础信息,具体会涉及到一种标签系统,通过各种标签来将用户的信息分解并存储在数据库中,以用户性别为例,本文档来自技高网
...

【技术保护点】
1.一种标签的生成方法,其特征在于,包括:/n获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗;/n根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征;/n根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练;/n使用训练后的逻辑回归分类模型进行预测,生成标签。/n

【技术特征摘要】
1.一种标签的生成方法,其特征在于,包括:
获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗;
根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征;
根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练;
使用训练后的逻辑回归分类模型进行预测,生成标签。


2.根据权利要求1所述的方法,其特征在于,所述获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗,具体包括:
获取用户行为和日志信息,过滤处理成用户的基本信息和行为特征数据;
将所述用户的基本信息和行为特征数据进行清洗,去除空值、重复值和异常值;
将所述用户的基本信息和行为特征数据进行预处理。


3.根据权利要求2所述的方法,其特征在于,所述根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征,具体包括:
通过预设特征的方式,选择逻辑回归分类模型使用的特征。


4.根据权利要求2所述的方法,其特征在于,所述根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征,具体包括:
根据所述用户的基本信息和行为特征数据,通过使用GBDT算法,计算得到每个特征的特征重要度;
根据所述特征重要度,选择特征重要度高的特征作为逻辑回归分类模型使用的特征。


5.根据权利要求2所述的方法,其特征在于,所述根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练,具体包括:
预设所述逻辑回归分类模型的超参数至少一个;
根据所述选择的特征和逻辑回归分类模型,将所述特征作为逻辑回归分类模型的参数,结合预处理后的用户基本信息,将所述预设的超参数一一代入训练,得到训练后的逻辑回归分类模型;
比较不同超参数训练后的逻辑回归分类模型,选择最优的模型和超参数,得到最优...

【专利技术属性】
技术研发人员:吴雨
申请(专利权)人:苏宁云计算有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1