嵌入表生成方法与嵌入表浓缩方法技术

技术编号:39189153 阅读:9 留言:0更新日期:2023-10-27 08:36
本发明专利技术提供一种嵌入表生成方法与嵌入表浓缩方法。嵌入表生成方法包括:依据初始特征维度建立分类数据所对应的嵌入表的初始结构;对具有初始结构的嵌入表进行模型训练以生成所述嵌入表的初始内容;基于所述嵌入表的初始内容计算经浓缩特征维度;依据所述经浓缩特征维度建立嵌入表的新结构;对具有新结构的所述嵌入表进行所述模型训练以生成所述嵌入表的经浓缩内容。经浓缩内容。经浓缩内容。

【技术实现步骤摘要】
嵌入表生成方法与嵌入表浓缩方法


[0001]本专利技术涉及一种机器学习/深度学习,且特别是涉及一种用于深度学习中推荐模型的嵌入表生成方法与嵌入表浓缩方法。

技术介绍

[0002]深度学习(deep learning)/机器学习(machine learning)被广泛用于人工智能领域。在深度学习中,推荐系统(recommendation system)例如可依据使用者的个人信息以及历史数据推荐影音串流。推荐系统具有多个嵌入表(embedding table),每一个嵌入表包括多个索引(index)与至少一个特征(feature)。特征数量越少(特征维度越小),这个嵌入表的数据量越小。一般来说,当嵌入表中的特征数量越多(特征维度越大),推荐系统的精准率越高。然而在一些应用中,当嵌入表中的特征数量太多(特征维度过大),推荐系统会发生过拟合(overfit)使得精准率降低。嵌入表的数据量通常极为庞大,因此嵌入表有被数据压缩的需求。在不降低推荐系统的精准度的前提下,如何浓缩/压缩嵌入表来降低数据量,是人工智能领域的诸多技术课题之一。

技术实现思路

[0003]本专利技术提供一种嵌入表的生成方法与嵌入表浓缩方法,以生成具有适配的特征维度的嵌入表。
[0004]在本专利技术的实施例中,上述嵌入表生成方法包括:依据初始特征维度建立分类数据所对应的嵌入表的初始结构;对具有所述初始结构的所述嵌入表进行模型训练,以生成所述嵌入表的初始内容;基于所述嵌入表的所述初始内容计算经浓缩特征维度;依据所述经浓缩特征维度建立所述嵌入表的新结构;以及对具有所述新结构的所述嵌入表进行所述模型训练,以生成所述嵌入表的经浓缩内容。
[0005]在本专利技术的实施例中,上述嵌入表浓缩方法包括:接收具有初始特征维度的嵌入表的初始内容;基于所述嵌入表的所述初始内容计算经浓缩特征维度;依据所述经浓缩特征维度建立所述嵌入表的新结构;以及对具有所述新结构的所述嵌入表进行模型训练,以生成所述嵌入表的经浓缩内容。
[0006]基于上述,本专利技术一些实施例可基于嵌入表的初始内容计算经浓缩特征维度(适配的特征维度),然后依据所述经浓缩特征维度重新建立嵌入表的新结构。具有新结构的嵌入表可以再一次进行模型训练,以生成嵌入表的经浓缩内容。亦即,实施例可以通过模型训练去决定嵌入表的适配特征维度,从而兼顾推荐系统的精准度与嵌入表的数据量。
附图说明
[0007]图1是依据本专利技术一实施例所绘示的嵌入表的示意图。
[0008]图2是依据本专利技术一实施例所绘示的嵌入表的生成方法的示意图。
[0009]图3是依据本专利技术一实施例所绘示的嵌入表的生成方法的流程示意图。
[0010]图4是依据本专利技术一实施例所绘示的嵌入表的生成方法的流程图。
[0011]图5是依据本专利技术一实施例所绘示的嵌入表的生成方法的流程图。
[0012]附图标记说明
[0013]AV:非零特征
[0014]C1、C2、CK:经浓缩内容
[0015]d:特征维度
[0016]d1、d2、d
k
:初始特征维度
[0017]d1’
、d2’
、d
k

:经浓缩特征维度
[0018]e
a1
、e
a2
、e
a3
、e
a4
、e
b1
、e
b2
、e
b3
、e
b4
、e
c1
、e
c2
、e
c3
、e
c4
:特征
[0019]I1、I2、IK:初始内容
[0020]IND0、IND2、IND3:索引
[0021]N1、N2、NK:新结构
[0022]NAV
i
:非零特征数量
[0023]N
i
:总特征数量
[0024]NV:零特征
[0025]P1、P2、PK:修剪内容
[0026]S310、S320、S330、S340、S350、S360、S370、S410、S420、S430、S440、S450、S510、S520、S530、S540:步骤
[0027]T0、T1、T2、TK:嵌入表
具体实施方式
[0028]现将详细地参考本专利技术的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同元件符号在图式和描述中用来表示相同或相似部分。
[0029]在本案说明书全文(包括权利要求)中所使用的“耦接(或连接)”一词可指任何直接或间接的连接手段。举例而言,若文中描述第一装置耦接(或连接)于第二装置,则应该被解释成该第一装置可以直接连接于该第二装置,或者该第一装置可以透过其他装置或某种连接手段而间接地连接至该第二装置。另外,凡可能之处,在图式及实施方式中使用相同标号的组件/构件/步骤代表相同或类似部分。不同实施例中使用相同标号或使用相同用语的组件/构件/步骤可以相互参照相关说明。
[0030]图1是依据本专利技术一实施例所绘示的嵌入表的示意图。在深度学习中,推荐系统(recommendation system)可包括多个嵌入表(embedding table)。请参照图1,举例而言,多个嵌入表中的嵌入表T0可包括3个索引,即索引IND0、索引IND1与索引IND2。而每个索引上分别包括4个特征,例如索引IND0包括特征e
a1
、特征e
a2
、特征e
a3
、特征e
a4
,索引IND1包括特征e
b1
、特征e
b2
、特征e
b3
、特征e
b4
,索引IND2包括特征e
c1
、特征e
c2
、特征e
c3
、特征e
c4
。换句话说,在此实施例中,嵌入表T0的索引数量为3,特征维度d为4。必须说明的是,嵌入表T0仅为示例,本专利技术不限制推荐系统中嵌入表的数量、各嵌入表的索引数量以及各嵌入表的特征维度。
[0031]必须说明的是,本专利技术的推荐系统可以由人工神经网络(Artificial Neural Network,ANN)建构。推荐系统的相关功能可藉由编程码例如是一般的编程语言
(programming languages,例如C、C++或汇编语言)或其他合适的编程语言来实现。所述编程码可以被记录或存放在记录媒体中,所述记录媒体例如包括只读存储器(Read Only Memory,ROM)、存储装置及/或随机存取内存(Random Access Memory,RAM)。所述编程码可藉由处理器(未绘示)从所述记录媒体中读取并执行所述编程码,从而达成推荐系统的相关功能。处理器例如可配置于桌面计算机(Desktop Computer)、个人计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种嵌入表生成方法,其特征在于,所述嵌入表生成方法包括:依据初始特征维度建立分类数据所对应的嵌入表的初始结构;对具有所述初始结构的所述嵌入表进行模型训练,以生成所述嵌入表的初始内容;基于所述嵌入表的所述初始内容计算经浓缩特征维度;依据所述经浓缩特征维度建立所述嵌入表的新结构;以及对具有所述新结构的所述嵌入表进行所述模型训练,以生成所述嵌入表的经浓缩内容。2.根据权利要求1所述的嵌入表生成方法,其特征在于,所述计算所述经浓缩特征维度包括:基于所述初始内容计算所述嵌入表的重要性值;以及依据所述重要性值计算所述嵌入表的所述经浓缩特征维度。3.根据权利要求2所述的嵌入表生成方法,其特征在于,所述计算所述嵌入表的所述重要性值包括:以预设压缩率对所述嵌入表的所述初始内容进行修剪算法,以将所述初始内容转换为经修剪内容;以及基于所述经修剪内容计算所述嵌入表的所述重要性值。4.根据权利要求3所述的嵌入表生成方法,其特征在于,所述计算所述嵌入表的所述重要性值更包括:计算所述经修剪内容中的非零特征数量与总特征数量的比值以作为所述重要性值。5.根据权利要求2所述的嵌入表生成方法,其特征在于,所述计算所述嵌入表的所述经浓缩特征维度包括:计算所述初始特征维度与所述重要性值...

【专利技术属性】
技术研发人员:高靖芸朱昱达黄俊达
申请(专利权)人:创鑫智慧股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1