一种用于特征编码的方法和装置制造方法及图纸

技术编号:36810048 阅读:29 留言:0更新日期:2023-03-09 00:39
本发明专利技术的目的是提供一种用于特征编码的方法和装置。所述方法包括:获取需要进行语义空间特征向量编码的特征子集;通过对该特征子集中待编码的各个特征进行语义空间特征向量编码,得到相应的编码特征集;基于编码特征集来训练预测模型。本申请实施例具有以下优点:针对非数值类型的特征进行语义空间特征向量编码,通过构建含义丰富的属性空间,在编码数据中引入了丰富的语义信息,以基于特征编码得到的编码特征集来训练及其学习任务的预测模型,并且在特征编码避免了偏见的引入,提高了预测任务的准确性。预测任务的准确性。预测任务的准确性。

【技术实现步骤摘要】
一种用于特征编码的方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种用于特征编码的方法和装置。

技术介绍

[0002]在机器学习任务中,一般需要将待学习的任务特征及预测目标以某种方式编码为数值型数据。对大多数本身就是数值型的特征来说做编码时可以不用特殊处理,直接使用原始值,如身高、气温、商品价格、像素颜色等。但在很多任务中,存在大量非数值型(类别或离散型)的特征,如性别、地区、商品类型、影视剧的导演演员等。这些特征对学习任务非常重要,如果一个学习任务使用了大量的非数值型特征,则特征的编码方式必然对模型性能表现有巨大甚至决定性的影响。
[0003]基于现有技术的方案,主要的特征编码方式包括:
[0004]1)序号编码:很多特征不一定能保证同类型下不同类型值排序的稳定性。如播出档期的年度票房占比、播出平台的市场占有率、内容题材的占比每年都可能不同。这种情况下不太适用序号编码,从而使得序号编码的应用范围非常受限;
[0005]2)独热编码:某些特征如演员,如使用独热编码,会使得特征维度数剧烈膨胀,极大的增加内存本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种特征编码方法,其中,所述方法包括:获取需要进行语义空间特征向量编码的特征子集;通过对该特征子集中待编码的各个特征进行语义空间特征向量编码,得到相应的编码特征集;基于编码特征集来训练预测模型。2.根据权利要求1所述的方法,其中,所述获取需要进行语义空间特征向量编码的特征子集的步骤包括:将机器学习任务涉及的所有特征划分为需要编码的特征集合和无需编码的特征集合;通过对需要编码的特征集合进行筛选,得到第一特征子集和第二特征子集,其中,第一特征子集中包含的特征需要使用序号或独热编码的方式来进行编码,第二特征子集中的包含的特征需要进行语义空间特征向量编码。3.根据权利要求2所述的方法,其中,所述方法还包括:使用序号和独热编码的方式对第一特征子集中包含的各个特征进行编码,得到相应的第一编码特征集;其中,所述基于编码...

【专利技术属性】
技术研发人员:张弓李鹏阮华松何旺民唐柯陈志永
申请(专利权)人:上海森宇文化传媒股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1