数据编码生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33557163 阅读:21 留言:0更新日期:2022-05-26 22:54
本发明专利技术涉及人工智能技术领域,提供了一种数据编码生成方法、装置、电子设备及存储介质,所述方法包括:获取预设数据集中任一待编码数据,其中,由预设数据集中的数据的最大值和最小值确定的数值区间大于预设区间;对待编码数据进行编码运算,得到待编码数据的多个编码索引值;根据每一编码索引值,从预设编码矩阵中获取与每一编码索引值对应的目标编码行;将多个目标编码行进行合并,得到待编码数据的编码结果,以根据待编码数据的编码结果进行模型训练。本发明专利技术有效降低高维ID类特征数据占用的存储空间,极大地降低了模型训练的成本,且不受模型训练涉及的上下游链路的开放度的限制。模型训练涉及的上下游链路的开放度的限制。模型训练涉及的上下游链路的开放度的限制。

【技术实现步骤摘要】
数据编码生成方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,具体而言,涉及一种数据编码生成方法、装置、电子设备及存储介质。

技术介绍

[0002]深度模型训练时,首先需要对参与训练的特征数据做向量化(Embedding)处理,即将特征数据编码成满足深度模型的输入要求的形式。对于取值个数较少或者取值跨度范围较小的单一特征数据,存储向量化的空间大小(也称为字典大小)可以根据取值的最大值预先确定。例如,对于性别这种单一特征数据,实际表示时,其取值个数只有两个:0或1,字典大小由特征的取值空间(最大值)1决定。而对于取值跨度范围较大的高维ID类特征数据,比如广告ID或者用户ID,或者一些不定长文本类特征,其取值跨度范围会非常大,甚至达到上亿或几十亿,如果直接使用与单一特征数据类似的存储方式,会造成模型参数量巨大,模型训练和部署均无法进行。
[0003]对于高维ID类特征数据,现有技术通过改写底层训练框架,或者提供一些训练插件,在模型训练中自动支持ID特征数据的过滤解析,以缩小高维ID类特征数据的取值跨度范围,再将其编本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据编码生成方法,其特征在于,所述方法包括:获取预设数据集中任一待编码数据,其中,由所述预设数据集中的数据的最大值和最小值确定的数值区间大于预设区间;对所述待编码数据进行编码运算,得到所述待编码数据的多个编码索引值;根据每一所述编码索引值,从预设编码矩阵中获取与每一所述编码索引值对应的目标编码行;将所述多个目标编码行进行合并,得到所述待编码数据的编码结果,以根据所述待编码数据的编码结果进行模型训练。2.如权利要求1所述的数据编码生成方法,其特征在于,所述对所述待编码数据进行编码运算,得到所述待编码数据的多个编码索引值的步骤包括:利用多个不同的预设哈希函数分别对所述待编码数据进行哈希运算,得到多个第一哈希值;按照预设模值对每一所述第一哈希值进行取模运算,得到每一所述第一哈希值的取模结果;将多个第一哈希值的取模结果作为所述待编码数据的多个编码索引值。3.如权利要求2所述的数据编码生成方法,其特征在于,每一所述预设哈希函数对应一个所述预设编码矩阵,每一所述预设编码矩阵的行数与所述预设模值相同,所述根据每一所述编码索引值,从预设编码矩阵中获取与每一所述编码索引值对应的目标编码行的步骤包括:对任一目标编码索引值,根据所述目标编码索引值对应的所述预设哈希函数,确定与所述目标编码索引值对应的目标预设编码矩阵;将所述目标编码索引值作为行索引,从所述目标预设编码矩阵中获取与所述行索引对应的目标编码行。4.如权利要求1所述的数据编码生成方法,其特征在于,所述对所述待编码数据进行编码运算,得到所述待编码数据的多个编码索引值的步骤还包括:对所述待编码数据进行哈希运算,得到第二哈希值;按照预设段数将所述第二哈希值依次进行切分,得到多个哈希分段;根据预设模值,确定每一所述哈希分段的编码索引值;将多个哈希分段的编码索引值作为所述待编码数据的多个编码索引值。5.如权利...

【专利技术属性】
技术研发人员:李超
申请(专利权)人:上海喜马拉雅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1