用户数据分类方法、装置、服务器和计算机可读存储介质制造方法及图纸

技术编号:16427896 阅读:50 留言:0更新日期:2017-10-21 22:45
本公开提供了一种用户数据分类方法,包括:产生用户数据的特征;根据标注规则,产生用户数据的标注数据集和未标注数据集;根据标注数据集和未标注数据集,构建多个类别中的一个类别的正样本标注数据集P和未知样本数据集U;根据正样本标注数据集P和未知样本数据集U以及相对应的用户数据的特征,产生分类器;使用分类器确定未标注数据集中的用户数据是否属于所述那一个类别。本公开通过改进的正例无样本标记学习算法对用户数据进行分类,适用于人群的特征提取,挖掘系统中相似人生阶段的人群,从而提供精准人群定向的电商广告。

User data classification method, device, server and computer readable storage medium

The invention provides a method of classification, user data includes generating characteristics of user data; according to the rules, resulting in the user data annotation data set and unlabeled data set; according to the annotation data set and unlabeled data set, the positive samples to construct a plural categories in the labeled data set P and unknown the sample data set U; according to the characteristics of the classification, the user data is labeled sample data set P and unknown sample data set and the corresponding U; using the classifier determines unlabeled data set whether user data belonging to the one category. The public is improved through the cases without sample label learning algorithm to classify the user data, feature extraction is suitable for the crowd, similar to the stage of life in mining system, so as to provide precise crowd directional electricity supplier advertising.

【技术实现步骤摘要】
用户数据分类方法、装置、服务器和计算机可读存储介质
本公开涉及互联网
,具体涉及一种用户数据分类方法、装置、服务器和计算机可读存储介质。
技术介绍
市场研究者和社会学家近年来越发意识到,不同类别例如处于不同人生阶段的消费者表现出不同的购物行为。可以对消费者做一些粗粒度的人生阶段划分,例如,求学阶段(年轻人,且单身),新婚(年轻人,且没有小孩),中年(结婚,且有0或多个孩子),老年(年龄较高或退休,且子女独立生活)等。显然,即不同人生阶段(年龄段)的人表现出差异化的消费趋势。例如,怀孕的妇女会购买叶酸、维生素,妈妈们会根据婴儿的年龄段购买对应的商品,如奶粉、婴儿车、安全座椅、益智玩具等等。在电商网站的母婴频道、垂直类app中,消费者购买模式相当明显。可以在电商广告的精准人群定向业务和推荐系统中,引入消费者的人生阶段定向,从而可以获得更好的推荐效果。但是在实现本专利技术的过程中,专利技术人发现现有技术至少存在如下技术问题:方法的有效性非常依赖训练数据的正确性和规模,同时,由于某些商品如母婴类商品由于其属性的标准特征,比如奶粉明确会注明适龄范围,本身已经有很强的人群定向,作为推荐应用未必合适。因此,需要一种对用户进行分类的方法及装置,能够更好地对用户进行分类,例如更准确可靠地挖掘电商系统中具有相同人生阶段的消费者的,从而服务于电商广告的精准人群定向。
技术实现思路
根据本公开的第一方面,提供了一种用户数据分类方法,所述方法包括:产生用户数据的特征;根据标注规则,产生用户数据的标注数据集和未标注数据集;根据所述标注数据集和未标注数据集,构建多个类别中的一个类别的正样本标注数据集P和未知样本数据集U;根据正样本标注数据集P和未知样本数据集U以及相对应的用户数据的特征,产生分类器;以及使用所述分类器确定未标注数据集中的用户数据是否属于所述那一个类别。在一个实施例中,所述用户数据可以是电商用户数据,所述多个类别是多个人生阶段,例如母婴人生阶段。在一个实施例中,所述方法还可以包括判断所述用户数据是否满足标注规则,如果满足则加入到标注数据集中,所述标注规则可以包括:如果用户数据指示只购买过一个人生阶段的商品,则将购买时间确定为该人生阶段的开始时间,如果用户数据指示购买过多个人生阶段的商品且按照时间顺序购买,则最后一次购买的时间确定相对应的人生阶段的开始时间,和/或如果用户数据指示购买过多个人生阶段的商品且没有按照时间顺序购买,则以最早的人生阶段为准,将属于该人生阶段的最早下单时间确定该人生阶段的开始时间。所述方法还可以包括,根据所确定的人生阶段的开始时间、每个人生阶段的持续时间和当前时间,确定用户数据当前属于哪个人生阶段。在一个实施例中,所述特征可以包括购买商品的类目特征、人口属性特征以及时间特征,所述时间特征可以包括购买时间加权特征和与各个人生阶段有关的特征。在一个实施例中,所述正样本标准数据集P可以包括标注数据集中属于所述类别的用户数据,未知样本数据集U包括由标注数据集中不属于所述类别的用户数据和未标注数据集中的用户数据组成的集合中的至少一部分,并且产生分类器可以包括以下步骤:设置分类器M为空,并且可靠负样本集合RN为空;从P中随机采样一部分用户数据S加入U,更新P和U,记为Ps=P-S,Us=U+S;使用Ps作为正样本,Us作为负样本,训练逻辑回归分类器LRi,i=0,1,...,如下(1)利用S设定分类器阈值th;(2)对于每一个样本u∈Us:如果在LRi的分类器结果小于阈值th,则将u加入RN中,并且Us=Us-RN;(3)M=M+LRi;使用Ps作为正样本,RN作为负样本,训练逻辑回归分类器LRi,重复以上步骤(1)-(3),直到满足迭代终止条件,得到分类器LRlast;使用LRlast对P进行分类,如果超过一定阈值数量的正样本被判定为负,则返回LR1作为最终分类器,否则返回LRlast作为最终的分类器。根据本公开的第二方面,提供了一种用户数据分类装置,包括:特征产生单元701、标注单元702、样本构建单元703、分类器产生单元704和分类单元705。特征产生单元701被配置为产生用户数据的特征。标注单元702被配置为根据标注规则,产生用户数据的标注数据集和未标注数据集。样本构建单元703被配置为根据所述标注数据集和未标注数据集,构建多个类别中的一个类别的正样本标注数据集P和未知样本数据集U。分类器产生单元704被配置为根据正样本标注数据集P和未知样本数据集U以及相对应的用户数据的特征,产生分类器。分类单元705被配置为使用所述分类器确定未标注数据集中的用户数据是否属于所述那一个类别。在一个实施例中,所述用户数据可以是电商用户数据,所述多个类别可以是多个人生阶段,例如母婴人生阶段。在一个实施例中,所述标注单元还可以被配置为判断所述用户数据是否满足标注规则,如果满足则加入到标注数据集中,所述标注规则包括:如果用户数据指示只购买过一个人生阶段的商品,则将购买时间确定为该人生阶段的开始时间,如果用户数据指示购买过多个人生阶段的商品且按照时间顺序购买,则最后一次购买的时间确定相对应的人生阶段的开始时间,和/或如果用户数据指示购买过多个人生阶段的商品且没有按照时间顺序购买,则以最早的人生阶段为准,将属于该人生阶段的最早下单时间确定该人生阶段的开始时间。所述标志单元还可以被配置为根据所确定的人生阶段的开始时间、每个人生阶段的持续时间和当前时间,确定用户数据当前属于哪个人生阶段。在一个实施例中,所述特征可以包括购买商品的类目特征、人口属性特征以及时间特征,其中所述时间特征还可以包括购买时间加权特征和与各个人生阶段有关的特征。在一个实施例中,正样本标准数据集P可以包括标注数据集中属于所述类别的用户数据,未知样本数据集U可以包括由标注数据集中不属于所述类别的用户数据和未标注数据集中的用户数据组成的集合中的至少一部分,并且分类器产生单元还可以被配置为:设置分类器M为空,并且可靠负样本集合RN为空;从P中随机采样一部分用户数据S加入U,更新P和U,记为Ps=P-S,Us=U+S;使用Ps作为正样本,Us作为负样本,训练逻辑回归分类器LRi,i=0,1,...,如下(1)利用S设定分类器阈值th;(2)对于每一个样本u∈Us:如果在LRi的分类器结果小于阈值th,则将u加入RN中,并且Us=Us-RN;(3)M=M+LRi;使用Ps作为正样本,RN作为负样本,训练逻辑回归分类器LRi,重复以上步骤(1)-(3),直到满足迭代终止条件,得到分类器LRlast;使用LRlast对P进行分类,如果超过一定阈值数量的正样本被判定为负,则返回LR1作为最终分类器,否则返回LRlast作为最终的分类器。根据本公开的第三方面,提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。根据本公开的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令当被计算机执行,使得所述计算机执行如第一方面所述的方法。本公开提出了改进的用户数据分类方法,通过标注数据集和未标注数据集,来训练分类器,从而可以本文档来自技高网...
用户数据分类方法、装置、服务器和计算机可读存储介质

【技术保护点】
一种用户数据分类方法,包括:产生用户数据的特征;根据标注规则,产生用户数据的标注数据集和未标注数据集;根据所述标注数据集和未标注数据集,构建多个类别中的一个类别的正样本标注数据集P和未知样本数据集U;根据正样本标注数据集P和未知样本数据集U以及相对应的用户数据的特征,产生分类器;使用所述分类器确定未标注数据集中的用户数据是否属于所述那一个类别。

【技术特征摘要】
1.一种用户数据分类方法,包括:产生用户数据的特征;根据标注规则,产生用户数据的标注数据集和未标注数据集;根据所述标注数据集和未标注数据集,构建多个类别中的一个类别的正样本标注数据集P和未知样本数据集U;根据正样本标注数据集P和未知样本数据集U以及相对应的用户数据的特征,产生分类器;使用所述分类器确定未标注数据集中的用户数据是否属于所述那一个类别。2.根据权利要求1所述的方法,其中,所述用户数据是电商用户数据,所述多个类别是多个人生阶段。3.根据权利要求2所述的方法,还包括判断所述用户数据是否满足标注规则,如果满足则加入到标注数据集中,所述标注规则包括:如果用户数据指示只购买过一个人生阶段的商品,则将购买时间确定为该人生阶段的开始时间,如果用户数据指示购买过多个人生阶段的商品且按照时间顺序购买,则最后一次购买的时间确定相对应的人生阶段的开始时间,和/或如果用户数据指示购买过多个人生阶段的商品且没有按照时间顺序购买,则以最早的人生阶段为准,将属于该人生阶段的最早下单时间确定该人生阶段的开始时间;其中,所述方法还包括,根据所确定的人生阶段的开始时间、每个人生阶段的持续时间和当前时间,确定用户数据当前属于哪个人生阶段。4.根据权利要求2所述的方法,其中,所述特征包括购买商品的类目特征、人口属性特征以及时间特征,其中所述时间特征包括购买时间加权特征和与各个人生阶段有关的特征。5.根据权利要求1所述的方法,其中,正样本标准数据集P包括标注数据集中属于所述类别的用户数据,未知样本数据集U包括由标注数据集中不属于所述类别的用户数据和未标注数据集中的用户数据组成的集合中的至少一部分,并且产生分类器包括以下步骤:设置分类器M为空,并且可靠负样本集合RN为空;从P中随机采样一部分用户数据S加入U,更新P和U,记为Ps=P-S,Us=U+S;使用Ps作为正样本,Us作为负样本,训练逻辑回归分类器LRi,i=0,1,…,如下(1)利用S设定分类器阈值th;(2)对于每一个样本u∈Us:如果在LRi的分类器结果小于阈值th,则将u加入RN中,并且Us=Us-RN;(3)M=M+LRi;使用Ps作为正样本,RN作为负样本,训练逻辑回归分类器LRi,重复以上步骤(1)-(3),直到满足迭代终止条件,得到分类器LRlast;使用LRlast对P进行分类,如果超过一定阈值数量的正样本被判定为负,则返回LR1作为最终分类器,否则返回LRlast作为最终的分类器。6.一种用户数据分类装置,包括:特征产生单元,被配置为产生用户数据的特征;标注单元,被配置为根据标注规则,产生用户数据的标注数据集和未标注数据集;样本构建单元,被配置为根据所述标注数据集和未标注数据集,构建多个类别中的一个类别的正样本标...

【专利技术属性】
技术研发人员:赫南朱顺孙振鹏杨旭陈英杰完灏胡景贺温园旭李慧倩李婵怡
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1