一种用户投递意愿模型的构建方法和计算设备技术

技术编号:17139316 阅读:26 留言:0更新日期:2018-01-27 15:01
本发明专利技术公开了一种户投递意愿模型的构建方法,适于在计算设备中执行,该计算设备能够获取多个用户在目标网站的操作数据,该方法包括:获取多个用户在当前日期之前预定天数内的操作数据构造为样本集,该样本集中的每条样本包括用户标识、用户每天的操作数据和用户在当前日期的前一天是否有投递操作;根据用户在当前日期的前一天是否有投递操作将各样本标记为正样本或负样本,对负样本按照第一比例进行抽样,并将正样本与抽样后的负样本按照第二比例生成训练集;根据训练集中的操作数据计算各条样本的多个特征值,并将正负样本标识和多个特征值构造为样本的特征向量;以及采用预定算法对训练集中各样本的特征向量进行训练,得到用户投递意愿模型。

The construction method and computing equipment of a user delivery intention model

The invention discloses a home delivery intention model construction method, suitable for execution in a computing device, the operation data of the computing device to acquire multiple users in the target site, the method comprises: acquiring a plurality of user data structures within the predetermined operating days as a sample set prior to the current date, each sample of the sample set including user identification, user daily operation data and the user in the current day before the date of delivery or operation; according to the user in the current day before the date of delivery is operation each sample labeled positive samples or negative samples of negative samples were sampled according to the proportion of the first, and the positive samples and after sampling the negative samples in accordance with the proportion of second generation of the training set; the characteristic values of a plurality of samples is calculated according to the operation data in the training set, and the identification of positive and negative samples and multiple. The eigenvalue is constructed as the feature vector of the sample, and the predefined algorithm is applied to train the feature vectors of each sample in the training set to get the user's willingness to delivery model.

【技术实现步骤摘要】
一种用户投递意愿模型的构建方法和计算设备
本专利技术涉及互联网
,尤其涉及一种用户投递意愿模型的构建方法和计算设备。
技术介绍
随着互联网技术的发展,网络应聘/招聘已经成了求职者应聘工作、用人单位招聘员工的主要途径。用人单位和求职者在第三方的人才招聘网站上注册账号,相互之间进行搜索和交流,以寻求最满意的对象。一般用户找工作都具有很强的时效性,用户通常只在某个时间窗口具有找工作的意愿,过了该时间窗口,用户就不寻求就业机会了。如果能够准确预测用户最近是否活跃,并根据用户活跃程度对人才搜索结果调权,将非常有助于提升转化率。目前业界的预测方案是基于用户上次登录或投递的时间,计算该时间距离当前日期的间隔,间隔越长则今日投递意愿越低。但实际上,用户求职是周期性需求,且受节假日影响明显,而该方案对周期性投递行为的冷启动和节假日规律乏力。另外,用户在投递期间的动作存在规律,例如用户往往在求职初期前投递频繁,后期投递量逐渐减少,且不同用户的投递行为存在显著差异,例如A用户每日投递量超过100但B用户仅仅每天1-2次投递,用基于上次投递时间的方案无法对投递动作的变化做出相应的改变,也不能针对不同的用户实现个性化。因此,需要提供一种更有效的用户投递意愿概率的预测方法。
技术实现思路
为此,本专利技术提供一种用户投递意愿模型的构建方法和计算设备,以力图解决或至少缓解上面存在的问题。根据本专利技术的一个方面,提供了一种用户投递意愿模型的构建方法,适于在计算设备中执行,计算设备与数据存储装置连接,数据存储装置中存储有多个用户在目标网站的操作数据,操作数据包括动作数据和投递数据,该方法包括:获取多个用户在当前日期之前预定天数内的操作数据,并根据获取到的操作数据构造样本集,样本集中的每条样本包括用户标识、用户每天的操作数据和用户在当前日期的前一天是否有投递操作;根据用户在当前日期的前一天是否有投递操作将各条样本标记为正样本或负样本,对负样本按照第一比例进行抽样,并将正样本与抽样后的负样本按照第二比例生成训练集;根据训练集中的操作数据计算各条样本的多个特征值,并将正负样本标识和多个特征值构造为样本的特征向量;以及采用预定算法对训练集中各样本的特征向量进行训练,得到用户投递意愿模型,用户投递意愿模型的输入为目标用户的多个特征值,输出为该用户的投递意愿概率值。可选地,在根据本专利技术的用户投递意愿模型的构建方法中,动作数据包括动作类型和动作时间,动作类型包括点击、收藏、浏览,操作数据还包括登录数据,登录数据包括登录时间,投递数据包括投递时间。可选地,在根据本专利技术的用户投递意愿模型的构建方法中,多个特征值包括以下特征值中的至少两个:当前日期是星期几;当前日期距离注册日的天数;投递总次数;平均每天投递次数;当前日期距离上次投递的天数;当前日期距离上次动作的天数;最大连续动作天数;有过动作的天数;有过投递的天数;平均投递天数;平均动作天数。可选地,在根据本专利技术的用户投递意愿模型的构建方法中,还包括步骤:将多个特征值中的每个特征值分别除以训练集中对应特征值的最大值,以将各特征值进行归一化。可选地,在根据本专利技术的用户投递意愿模型的构建方法中,预定算法为GBDT回归算法。可选地,在根据本专利技术的用户投递意愿模型的构建方法中,采用预定算法对训练集中各样本的特征向量进行训练的步骤包括:采用不同的GBDT算法参数,分别对训练集中各样本的特征向量进行训练,得到每种算法参数对应的用户投递意愿模型;设定不同的判定阈值,对于每种算法参数对应的用户投递意愿模型,计算训练集中各条样本在该模型下的投递意愿概率值,并计算每种判定阈值下对是否产生投递的预测结果与真实值的误差值;以及选取误差值最小时的算法参数和判定阈值分别作为生效算法参数和生效判定阈值,并将生效算法参数对应的用户投递意愿模型作为生效用户投递意愿模型。可选地,在根据本专利技术的用户投递意愿模型的构建方法中,还包括步骤:从数据存储装置中获取全部用户的操作数据,并根据该操作数据计算各用户的多个特征值;以及分别将各用户的多个特征值输入到生效用户投递意愿模型中,计算得到各用户的投递意愿概率值,并根据生效判定阈值预测各用户是否会在当前日期进行投递操作。根据本专利技术的另一方面,提供了一种计算设备,包括:一个或多个处理器;存储器;和一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行如上所述的用户投递意愿模型的构建方法的指令。根据本专利技术的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行如上所述的用户投递意愿模型的构建方法。根据本专利技术的技术方案,根据数据库中存储的用户在预定时段内的操作数据构造样本集,并根据在当前日期的前一天是否有投递操作将各样本划分为正样本或负样本。考虑到负样本的比例过高,因此对负样本进行抽样后再与正样本混合,以得到训练集。之后,计算训练集中各条样本的多个特征值,并将该多个特征值和对应的正负样本标识构造为特征向量,采用预定算法对该特征向量进行训练,得到用户投递意愿模型。这样,只要计算出待测用户的多个特征值,输入到训练好的用户投递意愿模型中,就可以得到该用户的投递意愿概率值,再将该投递意愿概率值与设定的生效判定阈值比较即可预测该用户在当前日期是否会进行投递操作。而且,本专利技术的操作特征设置为多种特征,其能有效提高模型的准确性,进而提高预测结果的准确性。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术一个实施例的计算设备100的示意图;以及图2示出了根据本专利技术一个实施例的用户投递意愿模型的构建方法200的流程图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。取本文档来自技高网...
一种用户投递意愿模型的构建方法和计算设备

【技术保护点】
一种用户投递意愿模型的构建方法,适于在计算设备中执行,所述计算设备与数据存储装置连接,所述数据存储装置中存储有多个用户在目标网站的操作数据,所述操作数据包括动作数据和投递数据,该方法包括:获取多个用户在当前日期之前预定天数内的操作数据,并根据获取到的操作数据构造样本集,所述样本集中的每条样本包括用户标识、用户每天的操作数据和用户在当前日期的前一天是否有投递操作;根据用户在当前日期的前一天是否有投递操作将各条样本标记为正样本或负样本,对负样本按照第一比例进行抽样,并将正样本与抽样后的负样本按照第二比例生成训练集;根据训练集中的操作数据计算各条样本的多个特征值,并将正负样本标识和多个特征值构造为样本的特征向量;以及采用预定算法对训练集中各样本的特征向量进行训练,得到用户投递意愿模型,所述用户投递意愿模型的输入为目标用户的多个特征值,输出为该用户的投递意愿概率值。

【技术特征摘要】
1.一种用户投递意愿模型的构建方法,适于在计算设备中执行,所述计算设备与数据存储装置连接,所述数据存储装置中存储有多个用户在目标网站的操作数据,所述操作数据包括动作数据和投递数据,该方法包括:获取多个用户在当前日期之前预定天数内的操作数据,并根据获取到的操作数据构造样本集,所述样本集中的每条样本包括用户标识、用户每天的操作数据和用户在当前日期的前一天是否有投递操作;根据用户在当前日期的前一天是否有投递操作将各条样本标记为正样本或负样本,对负样本按照第一比例进行抽样,并将正样本与抽样后的负样本按照第二比例生成训练集;根据训练集中的操作数据计算各条样本的多个特征值,并将正负样本标识和多个特征值构造为样本的特征向量;以及采用预定算法对训练集中各样本的特征向量进行训练,得到用户投递意愿模型,所述用户投递意愿模型的输入为目标用户的多个特征值,输出为该用户的投递意愿概率值。2.如权利要求1所述的方法,其中,所述动作数据包括动作类型和动作时间,所述动作类型包括点击、收藏、浏览,所述操作数据还包括登录数据,所述登录数据包括登录时间,所述投递数据包括投递时间。3.如权利要求1所述的方法,其中,所述多个特征值包括以下特征值中的至少两个:当前日期是星期几;当前日期距离注册日的天数;投递总次数;平均每天投递次数;当前日期距离上次投递的天数;当前日期距离上次动作的天数;最大连续动作天数;有过动作的天数;有过投递的天数;平均投递天数;平均动作天数。4.如权利要求1所述的方法,还包括步骤:将所述多个特征值中的每个特征值分别...

【专利技术属性】
技术研发人员:方轲
申请(专利权)人:北京拉勾科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1