一种向量生成方法及装置制造方法及图纸

技术编号:21091863 阅读:37 留言:0更新日期:2019-05-11 10:48
本申请公开了一种向量生成方法及装置,该方法包括:获取身份特征数据;将所述身份特征数据作为预先建立的稠密向量相关模型的输入值,并获取所述模型的稠密向量输出结果,其中所述稠密向量输出结果的向量维度为预设值;根据模型的稠密向量输出结果生成向量维度为所述预设值的身份特征稠密向量。由于能够将所获取的身份特征数据作为稠密向量相关模型的输入值,并最终根据模型的稠密向量输出结果生成身份特征稠密向量,从而克服了现有技术中,独热编码身份特征向量通常只有一个或少数几个维度的特征值不为0,在向量维度较多的情况下,造成存储和运算资源的浪费的问题。

A Vector Generation Method and Device

【技术实现步骤摘要】
一种向量生成方法及装置
本申请涉及机器学习领域,尤其涉及一种向量生成方法及装置。
技术介绍
随着互联网的蓬勃发展,通常使用所训练的计算机模型来进行一些事务处理,比如通过计算机模型评估广告的点击率等。在某些计算机模型的训练过程中,可能会用到身份(identification,ID)特征,这些身份特征包括用户标识、广告标识、客户标识等。在实际应用中,往往将多个身份特征以独热编码(onehot)的方式生成身份特征向量,从而用于计算机模型的训练。在独热编码的身份特征向量中,身份特征向量的每一个维度分别代表一个身份特征,当某一个维度的特征值不为0时,表示该身份特征向量包含该维度所对应的身份特征。相反,如果某个维度特征值为0,则表示该身份特征向量不包含对应的身份特征。但是,由于独热编码的身份特征向量中,通常只有一个或少数几个维度的特征值不为0,因此当身份特征向量的维度较多时,大量特征值为0的独热编码身份特征向量会造成存储和运算资源的浪费。
技术实现思路
本申请实施例提供一种向量生成方法及装置,能够用于解决现有技术中独热编码的身份特征向量所造成存储和运算资源的浪费。本申请实施例提供了一种向量生成方法,该方法包括:获取身份特征数据;将所述身份特征数据作为预先建立的稠密向量相关模型的输入值,并获取所述模型的稠密向量输出结果,其中所述稠密向量输出结果的向量维度为预设值;根据模型的稠密向量输出结果生成向量维度为所述预设值的身份特征稠密向量。优选的,获取身份特征数据,具体包括:从用户行为日志中提取用户标识以及对应的至少一个行为对象标识;根据所述用户标识以及对应的各行为对象标识生成所述身份特征数据。优选的,所述身份特征稠密向量包括用户标识稠密向量和行为对象标识稠密向量;则,根据模型的稠密向量输出结果生成身份特征稠密向量,具体包括:根据所述身份特征数据中用户标识的稠密向量输出结果,生成用户标识稠密向量;以及,根据所述身份特征数据中各行为对象标识的稠密向量输出结果的平均值,生成行为对象标识稠密向量。优选的,所述方法还包括:对所述模型的稠密向量输出结果的准确性进行评估。优选的,对所述模型的稠密向量输出结果的准确性进行评估,具体包括:确定测试样本集以及所述测试样本集中各标准向量对应的标签;根据与所述稠密向量输出结果的向量距离由小到大的顺序,从所述测试样本集中确定出多个目标标准向量;根据各所述目标标准向量分别对应的标签与稠密向量输出结果的标签是否一致,对所述输出结果的准确性进行评估。优选的,所述稠密向量相关模型,具体包括:skip-gram结构的word2vec模型。优选的,所述word2vec模型具体包括:已取消滑动窗口大小限制的word2vec模型。本申请实施例还提供了一种向量生成装置,该装置包括:获取单元、输入单元以及生成单元,其中:所述获取单元,获取身份特征数据;所述输入单元,将所述身份特征数据作为预先建立的稠密向量相关模型的输入值,并获取所述模型的稠密向量输出结果,其中所述稠密向量输出结果的向量维度为预设值;所述生成单元,根据模型的稠密向量输出结果生成向量维度为所述预设值的身份特征稠密向量。优选的,所述装置还包括评估单元,对所述模型的稠密向量输出结果的准确性进行评估。优选的,所述获取单元,具体用于:从用户行为日志中提取用户标识以及对应的至少一个行为对象标识;根据所述用户标识以及对应的各行为对象标识生成所述身份特征数据。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:采用本申请实施例所提供的向量生成方法,能够通过稠密向量相关模型生成模型的稠密向量输出结果,并通过该稠密向量输出结果生成身份特征稠密向量,从而克服了现有技术中,独热独热编码身份特征向量通常只有一个或少数几个维度的特征值不为0,从而在向量维度较多时,大量特征值为0,而造成存储和运算资源的浪费的问题。特别是,通常稠密向量相关模型的输出结果的向量维度为设定值,此时根据该输出结果所生成的身份特征稠密向量的向量维度也为该设定值,通过这种方式来固定稠密向量的向量维度,能够进一步节省存储和运算资源。另外,相对于现有技术中的独热编码身份特征向量,本申请实施例所生成的多个身份特征稠密向量中,它们之间的向量距离还可以反映身份特征之间的相关性,比如两个身份特征稠密向量之间的距离越近,反映出这两个身份特征(比如用户标识)越相似,身份特征稠密向量的这种特性还能提升其在机器学习中的效果。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种向量生成方法的具体实现流程示意图;图2为本申请实施例提供的稠密向量相关模型的具体结构示意图;图3为本申请实施例提供的具体场景下,向量生成方法的具体实现流程示意图;图4为本申请实施例提供的一种向量生成装置的具体结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。如前所述,目前通常将多个身份特征以独热编码(onehot)的方式生成身份特征向量,从而用于计算机模型的训练。在独热编码的身份特征向量中,身份特征向量的每一个维度分别代表一个身份特征,当某一个维度的特征值不为0时,表示该身份特征向量包含该维度所对应的身份特征。相反,如果某个维度特征值为0,则表示该身份特征向量不包含对应的身份特征。但是,由于独热编码的身份特征向量中,通常只有一个或少数几个维度的特征值不为0,因此当身份特征向量的维度较多时,大量特征值为0的独热编码身份特征向量会造成存储和运算资源的浪费。比如,独热编码的身份特征向量的维度为1000,但只有一个维度的特征值不为0,也就是说该独热编码的身份特征向量包含该维度所对应的身份特征,但是不包含其他维度所对应的身份特征。该1000个维度的独热编码身份特征向量在存储或用于训练计算机模型时,会造成大量的存储和运算资源的浪费。实施例1实施例1提供了一种向量生成方法,用于解决现有技术中的问题。该方法的具体流程示意图如图1所示,包括下述步骤:步骤S11:获取身份特征数据。这里的身份特征数据可以包括各类身份(identification,ID)特征,比如用户标识以及行为对象标识。其中用户标识通常用于唯一标识用户,可以是用户的登录账号、IP地址等。行为对象标识用以唯一标识用户的操作行为所针对的对象,根据行为对象的不同,行为对象标识可以包括广告标识、客户标识等。获取身份特征数据的方式可以有多种,比如从所建立的数据库中获取身份特征数据,也可以是通过其他方式获取身份特征数据。在实际应用中,通常用户行为日志中记录有用户的日常操作行为,比如用户行为日志中可能会记录用户所点击的广告、所阅读的文章等,因此可以通过用户行为日志获取身份特征数据。在通过用户行为日志获取身份特征数据时,可以先从用户行为日志中提取用户标识以及对应的本文档来自技高网...

【技术保护点】
1.一种向量生成方法,其特征在于,包括:获取身份特征数据;将所述身份特征数据作为预先建立的稠密向量相关模型的输入值,并获取所述模型的稠密向量输出结果,其中所述稠密向量输出结果的向量维度为预设值;根据模型的稠密向量输出结果生成向量维度为所述预设值的身份特征稠密向量。

【技术特征摘要】
1.一种向量生成方法,其特征在于,包括:获取身份特征数据;将所述身份特征数据作为预先建立的稠密向量相关模型的输入值,并获取所述模型的稠密向量输出结果,其中所述稠密向量输出结果的向量维度为预设值;根据模型的稠密向量输出结果生成向量维度为所述预设值的身份特征稠密向量。2.如权利要求1所述的方法,其特征在于,获取身份特征数据,具体包括:从用户行为日志中提取用户标识以及对应的至少一个行为对象标识;根据所述用户标识以及对应的各行为对象标识生成所述身份特征数据。3.如权利要求2所述的方法,其特征在于,所述身份特征稠密向量包括用户标识稠密向量和行为对象标识稠密向量;则,根据模型的稠密向量输出结果生成向量维度为所述预设值的身份特征稠密向量,具体包括:根据所述身份特征数据中用户标识的稠密向量输出结果,生成向量维度为所述预设值的用户标识稠密向量;以及,根据所述身份特征数据中各行为对象标识的稠密向量输出结果的平均值,生成向量维度为所述预设值的行为对象标识稠密向量。4.如权利要求1所述的方法,其特征在于,所述方法还包括:对所述稠密向量输出结果的准确性进行评估。5.如权利要求4所述的方法,其特征在于,对所述稠密向量输出结果的准确性进行评估,具体包括:确定测试样本集以及所述测试样本集中各标准向...

【专利技术属性】
技术研发人员:苗泽民田园
申请(专利权)人:星潮闪耀移动网络科技中国有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1