商品性别标签确定方法和装置制造方法及图纸

技术编号:16102795 阅读:27 留言:0更新日期:2017-08-29 22:57
本发明专利技术公开一种商品性别标签确定方法和装置,涉及大数据处理领域。其中通过提取与商品关联的商品信息,获取商品信息的特征向量,利用预置的多决策树预测模型对特征向量进行预测处理,以便确定所述商品的性别标签。本发明专利技术通过深度学习挖掘出商品的特征向量,并利用多决策树预测模型预测出商品性别,从而更好地为用户提供个性化服务,以便与用户建立长期稳定的关系。

【技术实现步骤摘要】
商品性别标签确定方法和装置
本专利技术涉及大数据处理领域,特别涉及一种商品性别标签确定方法和装置。
技术介绍
随着信息技术和电商互联网的发展,人们逐渐走向了信息个性化时代。在这个时代,用户更为关注的是如何从大量信息中找到自己感兴趣的那一部分商品,所以,商品画像的建立就显得越来越重要。好的商品画像能够准确预测用户行为,扩展用户视野,帮助用户发现那些他们可能会感兴趣、但却不那么容易发现的商品。为了提高用户体验,目前出现了对商品的性别属性进行判的方案,以便用户能够快速找到其感兴趣的商品。该方案主要基于文本规则,即借助人工业务经验,根据与商品相关的名称信息中存在的关键词,给商品打性别标签。此外,还可基于用户行为进行商品行为预测。例如在已知用户性别的情况下,通过用户行为数据,比如用户的购买行为、关注行为、浏览行为等数据,若一个商品被男性用户购买的次数、浏览的次数、关注的次数都远大于被女性用户购买的次数、浏览的次数、关注的次数,就可以把这个商品预测为男性商品;采用同样的逻辑,也可以用来预测女性商品。此外还可设定一个阈值,如果一个商品被男女购买的次数差不多,也就是男女购买次数之差在阈值范围内,就预测该商品为中性商品。上述的现有技术存在以下显著的缺点:A)基于规则的统计,是从商品标题中挖掘有价值的信息,提取关键词匹配的思路,需要依赖人工业务经验,人能想到的男女性别特征词毕竟有限,从而导致模型的覆盖度不会很高。B)基于用户行为的预测,一方面用户不会对全站的每个商品都有行为,有一部分商品需要考虑冷启动方案,更关键的一方面是这种技术需要依赖用户性别,在知道用户性别的前提下,才能统计商品被男性用户和女性用户有行为的比例。所以,用户性别的准确度,将直接影响商品性别画像的预测。随着电商业务的不断扩大,商品个数和种类快速增长,用户需要花费大量时间才能找到自己想买的商品。男性用户更愿意看到推荐给他的大部分是男性商品,女性用户也希望推荐给她更多的女性商品。浏览大量无关信息和商品的过程,可能会使淹没在信息过载问题中的用户不断流失。因此,如何为用户提供个性化推荐是亟须解决的问题。
技术实现思路
本专利技术实施例提供一种商品性别标签确定方法和装置,通过深度学习挖掘出商品的特征向量,然后利用多决策树预测模型预测出商品性别,从而更好地为用户提供个性化服务,以便与用户建立长期稳定的关系。根据本专利技术的一个方面,提供一种商品性别标签确定方法,包括:提取与商品关联的商品信息;获取商品信息的特征向量;利用预置的多决策树预测模型对特征向量进行预测处理,以便确定商品的性别标签。在一个实施例中,商品信息包括商品的各级品类名称、商品对应的品牌名称、商品对应的店铺名称和商品的商品名称。在一个实施例中,在获取商品信息的特征向量前,还包括:对商品信息进行清洗,以去除在指定时间范围内销售量不在预定范围内的商品。在一个实施例中,对商品信息进行清洗包括:去除在指定时间范围内销售量小于预定门限的商品,或去除在指定时间范围内销售量仅集中在一个时间片断内的商品。在一个实施例中,获取商品信息的特征向量包括:利用向量运算工具Word2Vector提取商品信息的特征向量。在一个实施例中,将预设的窗口大小作为向量运算工具Word2Vector的上下文窗口参数,以便建立指定词和窗口内其它词语的关联关系。在一个实施例中,多决策树预测模型为梯度提升决策树GBDT。在一个实施例中,利用预置的多决策树预测模型对特征向量进行预测处理包括:依次利用多决策树预测模型中的决策树,对相应的特征向量进行识别,其中每个决策树对应的特征向量均不相同;若相应的特征向量与男相关,则将商品的性别标签设为男性;若相应的特征向量与女相关,则将商品的性别标签设为女性;若相应的特征向量与情侣相关,则将商品的性别标签设为情侣。在一个实施例中,若无法确定相应特征向量的性别属性,则进一步判定是否还存在下一决策树;若存在下一决策树,则利用下一决策树对相应的特征向量进行识别;若不存在下一决策树,则将商品的性别标签设为未知不确定。在一个实施例中,利用训练集对多决策树预测模型进行训练,其中训练集中包括训练样本特征向量及训练样本的性别属性,以便利用训练样本的性别属性对多决策树预测模型的训练进行修正。根据本专利技术的另一方面,提供一种商品性别标签确定装置,包括:商品信息提取模块,用于提取与商品关联的商品信息;特征向量获取模块,用于获取商品信息的特征向量;商品性别预测模块,用于利用预置的多决策树预测模型对特征向量进行预测处理,以便确定商品的性别标签。在一个实施例中,商品信息包括商品的各级品类名称、商品对应的品牌名称、商品对应的店铺名称和商品的商品名称。在一个实施例中,数据清洗模块,用于在特征向量获取模块获取商品信息的特征向量前,对商品信息进行清洗,以去除在指定时间范围内销售量不在预定范围内的商品。在一个实施例中,数据清洗模块具体去除在指定时间范围内销售量小于预定门限的商品,或去除在指定时间范围内销售量仅集中在一个时间片断内的商品。在一个实施例中,特征向量获取模块具体利用向量运算工具Word2Vector提取商品信息的特征向量。在一个实施例中,特征向量获取模块还用于将预设的窗口大小作为向量运算工具Word2Vector的上下文窗口参数,以便建立指定词和窗口内其它词语的关联关系。在一个实施例中,多决策树预测模型为梯度提升决策树GBDT。在一个实施例中,商品性别预测模块还用于依次利用多决策树预测模型中的决策树,对相应的特征向量进行识别,其中每个决策树对应的特征向量均不相同;若相应的特征向量与男相关,则将商品的性别标签设为男性;若相应的特征向量与女相关,则将商品的性别标签设为女性;若相应的特征向量与情侣相关,则将商品的性别标签设为情侣。在一个实施例中,商品性别预测模块还用于在无法确定相应特征向量的性别属性时,进一步判定是否还存在下一决策树;若存在下一决策树,则利用下一决策树对相应的特征向量进行识别;若不存在下一决策树,则将商品的性别标签设为未知不确定。在一个实施例中,训练模块,用于利用训练集对多决策树预测模型进行训练,其中训练集中包括训练样本特征向量及训练样本的性别属性,以便利用训练样本的性别属性对多决策树预测模型的训练进行修正。根据本专利技术的另一方面,提供一种商品性别标签确定装置,包括:存储器,用于存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现上述任一实施例涉及的方法。根据本专利技术的另一方面,提供一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现上述任一实施例涉及的方法。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术商品性别标签确定方法一个实施例的示意图。图2为本专利技术商品性别标签确定方法另一实施例的示意图。图3为本专利技术决策树一个实施例的示意图。图4为本专利技术决策树另一实施例的示意图。本文档来自技高网
...
商品性别标签确定方法和装置

【技术保护点】
一种商品性别标签确定方法,其特征在于,包括:提取与商品关联的商品信息;获取所述商品信息的特征向量;利用预置的多决策树预测模型对所述特征向量进行预测处理,以便确定所述商品的性别标签。

【技术特征摘要】
1.一种商品性别标签确定方法,其特征在于,包括:提取与商品关联的商品信息;获取所述商品信息的特征向量;利用预置的多决策树预测模型对所述特征向量进行预测处理,以便确定所述商品的性别标签。2.根据权利要求1所述的方法,其特征在于,所述商品信息包括所述商品的各级品类名称、所述商品对应的品牌名称、所述商品对应的店铺名称和所述商品的商品名称。3.根据权利要求1所述的方法,其特征在于,在获取所述商品信息的特征向量前,还包括:对所述商品信息进行清洗,以去除在指定时间范围内销售量不在预定范围内的商品。4.根据权利要求3所述的方法,其特征在于,对所述商品信息进行清洗包括:去除在指定时间范围内销售量小于预定门限的商品,或去除在指定时间范围内销售量仅集中在一个时间片断内的商品。5.根据权利要求1所述的方法,其特征在于,获取所述商品信息的特征向量包括:利用向量运算工具Word2Vector提取所述商品信息的特征向量。6.根据权利要求5所述的方法,其特征在于,还包括:将预设的窗口大小作为所述向量运算工具Word2Vector的上下文窗口参数,以便建立指定词和所述窗口内其它词语的关联关系。7.根据权利要求1所述的方法,其特征在于,所述多决策树预测模型为梯度提升决策树GBDT。8.根据权利要求7所述的方法,其特征在于,利用预置的多决策树预测模型对所述特征向量进行预测处理包括:依次利用多决策树预测模型中的决策树,对相应的特征向量进行识别,其中每个决策树对应的特征向量均不相同;若相应的特征向量与男相关,则将所述商品的性别标签设为男性;若相应的特征向量与女相关,则将所述商品的性别标签设为女性;若相应的特征向量与情侣相关,则将所述商品的性别标签设为情侣。9.根据权利要求8所述的方法,其特征在于,若无法确定相应特征向量的性别属性,则进一步判定是否还存在下一决策树;若存在下一决策树,则利用下一决策树对相应的特征向量进行识别;若不存在下一决策树,则将所述商品的性别标签设为未知不确定。10.根据权利要求1所述的方法,其特征在于,还包括:利用训练集对多决策树预测模型进行训练,其中训练集中包括训练样本特征向量及训练样本的性别属性,以便利用训练样本的性别属性对多决策树预测模型的训练进行修正。11.一种商品性别标签确定装置,其特征在于,包括:商品信息提取模块,用于提取与商品关联的商品信息;特征向量获取模块,用于获取所述商品信息的特征向量;商品性别预测模块,用于利用预置的多决策树预测模型对所述特征向量进行预测处理,以便...

【专利技术属性】
技术研发人员:王颖帅李晓霞
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1