System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种推荐系统多层感知机模块的自动架构搜索方法技术方案_技高网

一种推荐系统多层感知机模块的自动架构搜索方法技术方案

技术编号:41267308 阅读:7 留言:0更新日期:2024-05-11 09:23
本发明专利技术公开了一种推荐系统多层感知机模块的自动架构搜索方法,包括以下步骤:1、根据业务系统日志提取用户与物品的特征信息及交互行为;2、提出一种MLP搜索框架;3、通过梯度下降优化超网络进行架构搜索。4、基于加权求和混合算子的特点提出评估算子重要性的二次优化问题。5、用样本数据对搜索得到的模型结构进行训练,并保存训练完成的模型,得到具有优秀MLP结构的模型。6、对于需要预测是否点击的对,将相应的特征输入模型,得到点击概率的预测值。本发明专利技术可以自动地将MLP模块内的冗余部分替换为skip或none,一方面在保证推荐系统性能的前提下减少参数量、计算量与推理时间,一方面减少设计MLP模块深度、宽度所需的专家经验与尝试成本。

【技术实现步骤摘要】

本专利技术涉及的是神经网络架构搜索、推荐系统,具体涉及一种推荐系统多层感知机模块的自动架构搜索方法


技术介绍

1、神经网络架构搜索是近两年的新兴技术,过去需要大量专家经验与人工尝试才能设计出良好的神经网络架构;而神经网络架构搜索利用搜索空间与搜索算法,只需要很少的人力就能自动搜索出优秀的网络架构,性能可以接近甚至超过人工设计的网络。

2、互联网推荐系统利用机器学习或神经网络处理用户信息和物品信息,对用户与物品的匹配程度进行判断,从而将最合适的物品推荐给用户,可以提高物品点击率与用户满意度。推荐系统在电商推荐、视频推荐、广告投放等领域被广泛应用,展现出了巨大的价值。

3、在神经网络架构搜索与推荐系统结合的领域中,大多数方法关注的是显式特征交叉的自动搜索,例如哪些特征应该进行交叉、使用什么计算方法处理特征交叉,少部分关注的是特征维度的自动搜索,几乎没有对推荐系统常见模块——多层感知机模块的搜索。本专利技术针对这一问题,提出一种推荐系统多层感知机模块的自动架构搜索方法。

4、在推荐系统点击率预估的算法中,一个主要的理念是通过更好地处理特征交叉来提高预测准确性,例如用户性别与服装品牌的交叉可能对预测准确性有重要意义。对于性别与品牌这类显式的、低阶的特征交叉,可以由专家根据经验设计的fm、ffm等算法进行处理,而隐式的、高阶的特征交叉,目前基本都是由多层感知机模块(mlp)进行处理。但是mlp模块作为多层全连接神经网络参数量很大,会影响存储空间与推理速度,也很可能导致参数太过冗余。在神经网络图像处理领域中,曾经流行的全连接层逐渐被全局平均池化层所淘汰,但是推荐系统中mlp目前仍是不能被取代的。

5、由于上述mlp在自动架构搜索中的空白、mlp的缺点以及mlp在推荐系统中的重要性,本申请提出一种mlp的自动架构搜索方法。


技术实现思路

1、针对现有技术上存在的不足,本专利技术目的是在于提供一种推荐系统多层感知机模块的自动架构搜索方法,将mlp模块中每层的表征向量视为多个短表征向量的拼接,将原本的全连接建模为不同层的短表征向量间的全连接算子,并在全连接算子外引入skip算子与none算子组成搜索空间。通过可微架构搜索与本申请提出的算子评价方法,可以自动地将mlp模块内的冗余部分替换为skip或none,一方面在保证推荐系统性能的前提下减少参数量、计算量与推理时间,一方面减少设计mlp模块深度、宽度所需的专家经验与尝试成本。

2、为了实现上述目的,本专利技术是通过如下的技术方案来实现:一种推荐系统多层感知机模块的自动架构搜索方法,包括以下步骤:

3、1、根据业务系统日志提取用户与物品的特征信息及交互行为;

4、2、提出一种mlp搜索框架:将表征向量划分为n个短表征向量,引入fc、skip、none算子并将算子选择松弛为加权求和混合算子,把原本两层短表征向量间的全连接替换为混合算子。

5、3、通过梯度下降优化超网络进行架构搜索。

6、4、基于加权求和混合算子的特点提出评估算子重要性的二次优化问题。

7、5、用样本数据对搜索得到的模型结构进行训练,并保存训练完成的模型,得到具有优秀mlp结构的模型。

8、6、对于需要预测是否点击的(用户,物品)对,将相应的特征输入模型,得到点击概率的预测值。将候选物品按照点击概率的高低排序,然后向用户展示。

9、所述的步骤1具体包括:用户特征信息、物品特征信息、交互上下文信息,并生成样本标签:如果物品有曝光且用户点击则该条样本的标签为1,如果物品有曝光但用户未点击则该条样本的标签为0。将上述信息处理成结构化数据,并随机划分为训练集、验证集、测试集。

10、所述的步骤2具体包括:将表征向量划分为n个短表征向量,引入fc、skip、none算子并将算子选择松弛为加权求和混合算子,把原本两层短表征向量间的全连接替换为混合算子。以deepfm模型的mlp模块搜索为例,但本申请提出的mlp搜索框架亦可用于其他模型。将mlp模块第l层的表征向量划分为n个短表征向量,用表示;每层的节点通过混合算子的运算得到下一层的节点,具体数学表达式为:

11、

12、其中σ表示激活函数,表示3个算子组成的混合算子:

13、

14、是算子权重,由架构参数α进行softmax运算得到:

15、

16、将deepfm模型的mlp模块直接替换为mlp搜索模块,得到用于架构搜索的超网络。

17、所述的步骤3具体包括:将一批训练集输入超网络计算前向传播与反向传播,通过梯度下降法优化超网络除了架构参数α以外的其他参数,然后将一批验证集输入超网络,通过梯度下降法优化架构参数α,重复上述搜索步骤直至达到预先设定的迭代次数。

18、所述的步骤4具体包括:超网络优化结束后,架构参数α会发生改变,于是可以根据架构参数的值将混合算子离散化成单个算子,从而自动获得网络架构,无需人工设计;算子具体数学表达式为(以x11到x23的fc算子的重要性为例):

19、

20、根据泰勒展开计算δl

21、

22、由于β是算子的权重,还需要满足总和为1等条件,所以到的fc算子的重要性最终转化为下列优化问题的解:

23、

24、s.t.β+δβ≥0

25、

26、

27、该优化问题是一个线性约束二次优化问题,可以使用数值解法容易地求解,从而得到到的fc算子的重要性。将混合算子离散化为其内部三个算子中重要性最高的一个,就得到了mlp模块的架构搜索结果。

28、本专利技术具有以下有益效果:

29、1、实现了mlp模块的架构搜索,可以将原本全连接层的冗余部分替换为skip或none,一方面在保证推荐系统性能的前提下减少参数量、计算量与推理时间,一方面减少设计mlp模块深度、宽度所需的专家经验与尝试成本。

30、2、提出评估算子重要性的新方法,通过神经网络的性能计算重要性,相比传统的根据架构参数大小评估重要性的方法更合理,可以离散化得到更好的网络架构。

本文档来自技高网...

【技术保护点】

1.一种推荐系统多层感知机模块的自动架构搜索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种推荐系统多层感知机模块的自动架构搜索方法,其特征在于,所述的步骤1具体包括:用户特征信息、物品特征信息、交互上下文信息,并生成样本标签:如果物品有曝光且用户点击则该条样本的标签为1,如果物品有曝光但用户未点击则该条样本的标签为0;将上述信息处理成结构化数据,并随机划分为训练集、验证集、测试集。

3.根据权利要求1所述的一种推荐系统多层感知机模块的自动架构搜索方法,其特征在于,所述的步骤(2)具体包括:将表征向量划分为n个短表征向量,引入fc、skip、none算子并将算子选择松弛为加权求和混合算子,把原本两层短表征向量间的全连接替换为混合算子;以DeepFM模型的MLP模块搜索为例,但本申请提出的MLP搜索框架亦可用于其他模型。将MLP模块第l层的表征向量划分为n个短表征向量,用l=1,…,n表示;每层的节点通过混合算子的运算得到下一层的节点,具体数学表达式为:

4.根据权利要求1所述的一种推荐系统多层感知机模块的自动架构搜索方法,其特征在于,所述的步骤(3)具体包括:将一批训练集输入超网络计算前向传播与反向传播,通过梯度下降法优化超网络除了架构参数α以外的其他参数,然后将一批验证集输入超网络,通过梯度下降法优化架构参数α,重复上述搜索步骤直至达到预先设定的迭代次数。

5.根据权利要求1所述的一种推荐系统多层感知机模块的自动架构搜索方法,其特征在于,所述的步骤(4)具体包括:超网络优化结束后,架构参数α会发生改变,于是可以根据架构参数的值将混合算子离散化成单个算子,从而自动获得网络架构,无需人工设计;算子具体数学表达式为:

...

【技术特征摘要】

1.一种推荐系统多层感知机模块的自动架构搜索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种推荐系统多层感知机模块的自动架构搜索方法,其特征在于,所述的步骤1具体包括:用户特征信息、物品特征信息、交互上下文信息,并生成样本标签:如果物品有曝光且用户点击则该条样本的标签为1,如果物品有曝光但用户未点击则该条样本的标签为0;将上述信息处理成结构化数据,并随机划分为训练集、验证集、测试集。

3.根据权利要求1所述的一种推荐系统多层感知机模块的自动架构搜索方法,其特征在于,所述的步骤(2)具体包括:将表征向量划分为n个短表征向量,引入fc、skip、none算子并将算子选择松弛为加权求和混合算子,把原本两层短表征向量间的全连接替换为混合算子;以deepfm模型的mlp模块搜索为例,但本申请提出的mlp搜索框架亦...

【专利技术属性】
技术研发人员:周文彬韩弘炀傅剑文陈心童章建森
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1