转化率预估方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23432239 阅读:10 留言:0更新日期:2020-02-25 13:21
本申请实施例公开了一种转化率预估方法、装置、电子设备及存储介质,该方法包括:针对每个用户,分别按照时间顺序,从用户的历史行为数据中提取出针对商家的纯点击序列段、点击并下单序列段和纯下单序列段;根据每个用户对应的纯点击序列段、点击并下单序列段和纯下单序列段,确定训练样本集;根据训练样本集对词向量模型进行训练,得到词嵌入矩阵;根据词嵌入矩阵确定当前商家对应的词嵌入向量;确定当前用户的历史行为数据所针对的历史商家,并确定历史商家对应的词嵌入向量;根据当前商家对应的词嵌入向量和历史商家对应的词嵌入向量,预估当前用户对当前商家的转化率。本申请实施例较适用于高频使用的场景中,提高了转化率预估结果的精确度。

Conversion rate prediction method, device, electronic equipment and storage medium

【技术实现步骤摘要】
转化率预估方法、装置、电子设备及存储介质
本申请的实施例涉及互联网
,特别是涉及一种转化率预估方法、装置、电子设备及存储介质。
技术介绍
现有技术中,应用词嵌入向量预估转化率时,一般应用用户的点击序列,来训练词嵌入向量,并使用该词嵌入向量来预估转化率。由于只使用用户的点击序列作为训练语料,不适用于高频使用的场景中,在高频使用的场景中,转化率预估的结果精确度较低。
技术实现思路
本申请实施例提供一种转化率预估方法、装置、电子设备及存储介质,以提高转化率预估结果的精确度。为了解决上述问题,第一方面,本申请实施例提供了一种转化率预估方法,包括:针对每个用户,分别按照时间顺序,从用户的历史行为数据中提取出针对商家的纯点击序列段、点击并下单序列段和纯下单序列段;根据每个用户对应的所述纯点击序列段、点击并下单序列段和纯下单序列段,确定训练词嵌入矩阵的训练样本集;根据所述训练样本集,对词向量模型进行训练,得到词嵌入矩阵;根据所述词嵌入矩阵,确定当前商家对应的词嵌入向量;确定当前用户的历史行为数据所针对的历史商家,并根据所述词嵌入矩阵,确定所述历史商家对应的词嵌入向量;根据所述当前商家对应的词嵌入向量和所述历史商家对应的词嵌入向量,预估所述当前用户对所述当前商家的转化率。第二方面,本申请实施例提供了一种转化率预估装置,包括:序列提取模块,用于针对每个用户,分别按照时间顺序,从用户的历史行为数据中提取出针对商家的纯点击序列段、点击并下单序列段和纯下单序列段;训练样本确定模块,用于根据每个用户对应的所述纯点击序列段、点击并下单序列段和纯下单序列段,确定训练词嵌入矩阵的训练样本集;训练模块,用于根据所述训练样本集,对词向量模型进行训练,得到词嵌入矩阵;当前向量确定模块,用于根据所述词嵌入矩阵,确定当前商家对应的词嵌入向量;历史向量确定模块,用于确定当前用户的历史行为数据所针对的历史商家,并根据所述词嵌入矩阵,确定所述历史商家对应的词嵌入向量;转化率预估模块,用于根据所述当前商家对应的词嵌入向量和所述历史商家对应的词嵌入向量,预估所述当前用户对所述当前商家的转化率。第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的转化率预估方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请实施例公开的转化率预估方法的步骤。本申请实施例公开的转化率预估方法、装置、电子设备及存储介质,通过针对每个用户,分别按照时间顺序,从用户的历史行为数据中提取出针对商家的纯点击序列段、点击并下单序列段和纯下单序列段,根据每个用户对应的所述纯点击序列段、点击并下单序列段和纯下单序列段,确定训练词嵌入矩阵的训练样本集,根据所述训练样本集对词向量模型进行训练,得到词嵌入矩阵,根据词嵌入矩阵确定当前商家对应的词嵌入向量,并根据所述词嵌入向量,确定当前用户的历史行为数据所针对的历史商家,并确定历史商家对应的词嵌入向量,根据当前商家对应的词嵌入向量和历史商家对应的词嵌入向量预估当前用户对当前商家的转化率,由于在组织训练语料即训练样本集时,充分考虑了点击和下单行为之间的内在联系,语料包含有更丰富和合理的行为信息,从而使得训练出的词嵌入向量在空间中的距离表达更为精准,较适用于高频使用的场景中,从而提高了转化率预估结果的精确度。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例一的转化率预估方法的流程图;图2是本申请实施例中的提取纯点击序列段、点击并下单序列段和纯下单序列段的流程图;图3是本申请实施例二的转化率预估装置结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。实施例一本实施例公开的一种转化率预估方法,如图1所示,该方法包括:步骤110至步骤150。步骤110,针对每个用户,分别按照时间顺序,从用户的历史行为数据中提取出针对商家的纯点击序列段、点击并下单序列段和纯下单序列段。其中,纯点击序列段是指用户针对商家的点击行为构成的序列;点击并下单序列段是指用户针对商家的点击行为和下单行为构成的序列,且序列段的最后一个行为是下单行为,其他行为均是点击行为;纯下单序列段是指用户针对商家的下单行为构成的序列。获取每个用户的历史行为数据,对每个用户的历史行为数据分别进行处理,得到每个用户针对商家的纯点击序列段、点击并下单序列段和纯下单序列段。在提取一个用户对应的纯点击序列段、点击并下单序列段和纯下单序列段时,首先从该用户的历史行为数据中提取出针对商家的点击行为和下单行为,按照时间顺序将点击行为和下单行为组成行为序列,并按照时间顺序将下单行为组成下单序列,针对行为序列按照第一预设时间间隔和下单行为对行为序列进行分割,得到纯点击序列段和点击并下单序列段,针对下单序列按照第二预设时间间隔进行分割,得到纯下单序列段。在本申请的一个实施例中,所述针对每个用户,分别按照时间顺序,从用户的历史行为数据中提取出针对商家的纯点击序列段、点击并下单序列段和纯下单序列段,包括:步骤111至步骤117。步骤111,确定当前处理用户。针对一个购物平台或者综合服务平台,都会有很多用户,在确定所有商家对应的词嵌入矩阵时,可以针对一个平台上的所有用户的历史行为数据进行分析。针对每一个用户分别进行处理,可以从所有用户中抽取一个用户作为当前处理用户。步骤112,获取所述当前处理用户的历史行为数据。从数据库中获取当前处理用户的历史行为数据。步骤113,按照时间顺序,从所述历史行为数据中提取出所述当前处理用户针对商家的行为序列。按照时间顺序,从所述历史行为数据中提取出当前处理用户针对商家的点击行为和下单行为对应的行为序列,行为序列可以表示如下:click1、click2、click3、order1、click4、……、ordern、clickm、……其中,clickm表示当前处理用户针对某商家的点击行为,ordern表示当前处理用户针对某商家的下单行为,例如在外卖领域,clickm和ordern均可以用商家对应的POI(PointofInterest,兴趣点)表示。步骤114,根据所述行为序列,确定本文档来自技高网...

【技术保护点】
1.一种转化率预估方法,其特征在于,包括:/n针对每个用户,分别按照时间顺序,从用户的历史行为数据中提取出针对商家的纯点击序列段、点击并下单序列段和纯下单序列段;/n根据每个用户对应的所述纯点击序列段、点击并下单序列段和纯下单序列段,确定训练词嵌入矩阵的训练样本集;/n根据所述训练样本集,对词向量模型进行训练,得到词嵌入矩阵;/n根据所述词嵌入矩阵,确定当前商家对应的词嵌入向量;/n确定当前用户的历史行为数据所针对的历史商家,并根据所述词嵌入矩阵,确定所述历史商家对应的词嵌入向量;/n根据所述当前商家对应的词嵌入向量和所述历史商家对应的词嵌入向量,预估所述当前用户对所述当前商家的转化率。/n

【技术特征摘要】
1.一种转化率预估方法,其特征在于,包括:
针对每个用户,分别按照时间顺序,从用户的历史行为数据中提取出针对商家的纯点击序列段、点击并下单序列段和纯下单序列段;
根据每个用户对应的所述纯点击序列段、点击并下单序列段和纯下单序列段,确定训练词嵌入矩阵的训练样本集;
根据所述训练样本集,对词向量模型进行训练,得到词嵌入矩阵;
根据所述词嵌入矩阵,确定当前商家对应的词嵌入向量;
确定当前用户的历史行为数据所针对的历史商家,并根据所述词嵌入矩阵,确定所述历史商家对应的词嵌入向量;
根据所述当前商家对应的词嵌入向量和所述历史商家对应的词嵌入向量,预估所述当前用户对所述当前商家的转化率。


2.根据权利要求1所述的方法,其特征在于,所述针对每个用户,分别按照时间顺序,从用户的历史行为数据中提取出针对商家的纯点击序列段、点击并下单序列段和纯下单序列段,包括:
确定当前处理用户;
获取所述当前处理用户的历史行为数据;
按照时间顺序,从所述历史行为数据中提取出所述当前处理用户针对商家的行为序列;
根据所述行为序列,确定下单行为对应的下单序列;
按照第一预设时间间隔和下单行为,分别对所述行为序列进行截断,以将所述行为序列分割为纯点击序列段和点击并下单序列段;
按照第二预设时间间隔,对所述下单序列进行截断,以将所述下单序列分割为纯下单序列段;
循环执行上述确定当前处理用户和分割行为序列及下单序列的操作,直至得到每个用户对应的纯点击序列段、点击并下单序列段和纯下单序列段。


3.根据权利要求1所述的方法,其特征在于,所述根据每个用户对应的所述纯点击序列段、点击并下单序列段和纯下单序列段,确定训练词嵌入矩阵的训练样本集,包括:
根据所述纯点击序列段生成第一训练样本,根据所述点击并下单序列段生成第二训练样本,根据所述纯下单序列段生成第三训练样本;
针对每个用户,分别混合所述第一训练样本、第二训练样本和第三训练样本,得到训练词嵌入矩阵的训练样本集。


4.根据权利要求3所述的方法,其特征在于,所述根据所述纯点击序列段生成第一训练样本,根据所述点击并下单序列段生成第二训练样本,根据所述纯下单序列段生成第三训练样本,包括:
根据所述纯点击序列段,使用Skip-Gram模型和负采样生成第一训练样本;
根据所述点击并下单序列段,使用Skip-Gram模型和负采样生成第二训练样本;
根据所述纯下单序列段,使用Skip-Gram模型和负采样生成第三训练样本。


5.根据权利要求4所述的方法,其特征在于,采用所述第一训练样本训练所述词向量模型时使用的第一损失函数表示如下:






其中,Loss1为第一损失函数,Dp1为第一训练样本中中心词l1与正样本c1组成的样本对的集合,Dn1为第一训练样本中中心词l1与负采样词d1组成的样本对的集合,vl1是中心词l1对应的词嵌入向量,vc1是正样本c1对应的词嵌入向量,v′c1是vc1的转置向量,vd1是负采样词d1对应的词嵌入向量,v′d1是vd1的转置向量,是指后面括号中的表达式取最大值时变量θ1的取值,θ1为变量,即指vl1、vc1和vd1;
采用所述第二训练样本训练所述词...

【专利技术属性】
技术研发人员:孙士元谢乾龙王兴星王栋
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1