ITEM特征进行重表示的方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:27211031 阅读:18 留言:0更新日期:2021-01-31 12:47
本发明专利技术公开了一种ITEM特征进行重表示的方法、装置、计算机设备及存储介质,其中方法包括对ITEM进行统计分析,生成ITEM序列;搭建编码模型和解码模型;通过编码模型和解码模型对所述ITEM序列模型训练;模型训练结束后,从所述编码模型中进行Embedding提取。本发明专利技术能够使编码维度大幅度降低,并更容易呈现相关性信息。息。息。

【技术实现步骤摘要】
ITEM特征进行重表示的方法、装置、计算机设备及存储介质


[0001]本专利技术涉及大数据推荐领域,更具体地说是ITEM特征进行重表示的方法、装置、计算机设备及存储介质。

技术介绍

[0002]在大数据推荐领域中特征工程发挥非常重要作用,无论用在分类问题上还是在回归问题中都具有举足轻重的地位。比如在推荐产品的点击率(CTR,后面用此表示)预估问题中,以及推荐成功后产品转化率(CVR,后面用此表示)预估问题中,以及用户的年龄段,用户画像推断的问题上,都是重要的组成部分。一般可以将推荐模型类处理问题建模过程分为四个过程,分别为:数据采集(数据清洗),特征工程,模型训练,模型预测。经过数据采集阶段产生原始数据,通过特征工程对原始数据进行筛选等产生待输入的特征数据,输入到模型中,模型经过训练生成模型文件,用于预测测试集(Test data)数据可以起到过程评估的作用用于作为建模效果的评估手段,并反馈建模过程。在这四个阶段中特征工程的对(数据清洗后)原始数据进行特征的筛选,处理,降维等常用手段。
[0003]由于大数据的特征维度非常高(一般为百万到千万数量级),从而导致特征的one-hot编码异常稀疏且大,在训练中内存消耗高,而学习效率较低,使得模型训练困难。
[0004]因此,有必要设计一种可以将编码维度大幅度降低,并更容易呈现相关性信息的方案。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供ITEM特征进行重表示的方法、装置、计算机设备及存储介质。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]第一方面,ITEM特征进行重表示的方法,所述方法包括:
[0008]对ITEM进行统计分析,生成ITEM序列;
[0009]搭建编码模型和解码模型;
[0010]通过编码模型和解码模型对所述ITEM序列模型训练;
[0011]模型训练结束后,从所述编码模型中进行Embedding提取。
[0012]其进一步技术方案为:所述对ITEM进行统计分析,生成ITEM序列的步骤,具体包括:
[0013]建立ITEM的index字典,将ITEM用index表示;
[0014]去除index字典中的异常数据。
[0015]其进一步技术方案为:所述通过编码模型和解码模型对所述ITEM序列模型训练的步骤,具体包括:
[0016]将所述ITEM序列通过Mask生成器生成所述编码模型的输入向量;
[0017]所述编码模型将对输入向量进行处理生成隐藏状态向量;
[0018]对所述隐藏状态向量进行解码,并生成ITEM序列的下一个表示;
[0019]将生成的ITEM序列的下一个表示与原始ITEM序列进行比较,计算loss,并反传梯度进行参数更新。
[0020]其进一步技术方案为:所述ITEM为用户使用的APP。
[0021]第二方面,ITEM特征进行重表示的装置,包括统计分析单元、搭建单元、训练单元以及Embedding提取单元;
[0022]所述统计分析单元,用于对ITEM进行统计分析,生成ITEM序列;
[0023]所述搭建单元,用于搭建编码模型和解码模型;
[0024]所述训练单元,用于通过编码模型和解码模型对所述ITEM序列模型训练;
[0025]所述Embedding提取单元,用于模型训练结束后,从所述编码模型中进行Embedding提取。
[0026]其进一步技术方案为:所述统计分析单元包括建立模块以及删除模块;
[0027]所述建立模块,用于建立ITEM的index字典,将ITEM用index表示;
[0028]所述删除模块,用于去除index字典中的异常数据。
[0029]其进一步技术方案为:所述训练单元包括生成模块、处理模块、解码模块以及更新模块;
[0030]所述生成模块,用于将所述ITEM序列通过Mask生成器生成所述编码模型的输入向量;
[0031]所述处理模块,用于所述编码模型将对输入向量进行处理生成隐藏状态向量;
[0032]所述解码模块,用于对所述隐藏状态向量进行解码,并生成ITEM序列的下一个表示;
[0033]所述更新模块,用于将生成的ITEM序列的下一个表示与原始ITEM序列进行比较,计算loss,并反传梯度进行参数更新。
[0034]第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的ITEM特征进行重表示的方法步骤。
[0035]第四方面,一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得所述处理器执行如上述的ITEM特征进行重表示的方法步骤。
[0036]本专利技术与现有技术相比的有益效果是:本专利技术通过搭建的编码模型和解码模型对ITEM序列进行训练,然后从编码模型中进行Embedding提取,从而能够使编码维度大幅度降低,并更容易呈现相关性信息。
[0037]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术技术手段,可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征及优点能够更明显易懂,以下特举较佳实施例,详细说明如下。
附图说明
[0038]图1为本专利技术ITEM特征进行重表示的方法具体实施例的流程图一;
[0039]图2为本专利技术ITEM特征进行重表示的方法具体实施例的流程图二;
[0040]图3为本专利技术ITEM特征进行重表示的方法具体实施例的流程图三;
[0041]图4为本专利技术ITEM特征进行重表示的装置具体实施例的结构示意性框图一;
[0042]图5为本专利技术ITEM特征进行重表示的装置具体实施例的结构示意性框图二;
[0043]图6为本专利技术ITEM特征进行重表示的装置具体实施例的结构示意性框图三;
[0044]图7为本专利技术一种计算机设备的示意性框图。
具体实施方式
[0045]为了更充分理解本专利技术的
技术实现思路
,下面结合具体实施例对本专利技术的技术方案进一步介绍和说明,但不局限于此。
[0046]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0047]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0048]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.ITEM特征进行重表示的方法,其特征在于,所述方法包括:对ITEM进行统计分析,生成ITEM序列;搭建编码模型和解码模型;通过编码模型和解码模型对所述ITEM序列模型训练;模型训练结束后,从所述编码模型中进行Embedding提取。2.根据权利要求1所述的ITEM特征进行重表示的方法,其特征在于,所述对ITEM进行统计分析,生成ITEM序列的步骤,具体包括:建立ITEM的index字典,将ITEM用index表示;去除index字典中的异常数据。3.根据权利要求1所述的ITEM特征进行重表示的方法,其特征在于,所述通过编码模型和解码模型对所述ITEM序列模型训练的步骤,具体包括:将所述ITEM序列通过Mask生成器生成所述编码模型的输入向量;所述编码模型将对输入向量进行处理生成隐藏状态向量;对所述隐藏状态向量进行解码,并生成ITEM序列的下一个表示;将生成的ITEM序列的下一个表示与原始ITEM序列进行比较,计算loss,并反传梯度进行参数更新。4.根据权利要求1任意一项所述的ITEM特征进行重表示的方法,其特征在于,所述ITEM为用户使用的APP。5.ITEM特征进行重表示的装置,其特征在于,包括统计分析单元、搭建单元、训练单元以及Embedding提取单元;所述统计分析单元,用于对ITEM进行统计分析,生成ITEM序列;所述搭建单元,用于搭建编码模型和解码模型;所述训练单元,用于通过编码模型和解码模型对所述ITEM序...

【专利技术属性】
技术研发人员:罗伟东邵伟李荣茂
申请(专利权)人:深圳市和讯华谷信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1