基于稀疏组Lasso的高阶因子分解机方法技术

技术编号：21914185 阅读：38 留言：0更新日期：2019-08-21 12:29

本发明专利技术是高阶因子分解机模型的增强策略，具体为”基于稀疏组Lasso的高阶因子分解机方法”(简写作SGL‑HOFM)。其特点是：针对高阶因子分解机特殊的交叉项结构采用了基于Sparse Group Lasso的正则项，而不是传统的二范数，新的模型能够实现特征的结构稀疏，起到了特征选择的作用。采用本发明专利技术以后，模型的参数个数显著减少，从而减小了所需要的存储空间，而且由于特征选择去除了噪音，模型的性能还有所提升，本发明专利技术可以广泛应用到数据挖掘领域，如分类、回归、排序、特征分析、推荐系统、社交网络分析等多种场景，特别适合处理含有大规模稀疏高维数据的分析问题。

High-order factorization method based on sparse group Lasso

全部详细技术资料下载

【技术实现步骤摘要】
基于稀疏组Lasso的高阶因子分解机方法一、
本专利技术是高阶因子分解机模型的增强策略，具体为”基于稀疏组Lasso的高阶因子分解机方法”(简写作SGL-HOFM)，主要应用于数据挖掘领域，如分类、回归、排序、特征分析、推荐系统、社交网络分析等多种场景，特别适合处理含有大规模稀疏高维数据的分析问题。二、
技术介绍
因子分解机(FactorizationMachine，简称为FM)是由SteffenRendle于2010年提出的一个机器学习算法，主要解决大规模稀疏数据下的特征组合问题，以便用于数据挖掘、推荐系统等应用。后者的主要任务是根据用户的历史行为记录去预测用户未来可能购买的物品。从本质上来说就是探索用户与用户间以及用户与物品间的依存关系。FM的数学模型刻画如下：其中模型参数为ω0∈R，ω∈Rp以及V＝[v1，v2，…，vp]T∈Rp×k，向量vi∈Rk(1≤i≤p)表示对应隐空间中的特征向量，k是超参数，表示因子分解维度。在FM中，xixj和xixk的系数分别为<vi，vj>和<vi，vk>，两者含有同一变量xi的两个不同交叉项系数共享一个特征向量vi。当输入数据非常稀疏时，一般的二阶交叉模型无法学习到有效的交叉项系数。而FM借助交叉项系数的分解能学习到数据中隐藏的变量间的相互关系以揭示两者的依存。考虑一个电影评分问题，假设用户A只看过电影B，用户C既看过电影B又看过电影D，现在想预测用户A对电影D的打分，如果采用一般的二阶多项式模型，无法求得用户A和电影D的交叉项xAxD前的系数WA，D，因为没有使得用户A和电影D同时存在的训...

【技术保护点】
1.一种基于稀疏组Lasso的高阶因子分解机方法，其特征在于：利用了高阶因子分解机特殊的高阶交叉结构，采用了基于Sparse Group Lasso的正则项惩罚目标函数，从而实现了特征的结构稀疏特性，从而去除噪音，提升模型性能，新模型的目标函数如下所示

【技术特征摘要】
1.一种基于稀疏组Lasso的高阶因子分解机方法，其特征在于：利用了高阶因子分解机特殊的高阶交叉结构，采用了基于SparseGroupLasso的正则项惩罚目标函数，从而实现了特征的结构稀疏特性，从而去除噪音，提升模型性能，新模型的目标函数如下所示其中表示最小平方损失，是关于第i个特征的系数，是GroupLasso惩罚项，能实现列稀疏，是一范数惩罚项，表示在被GroupLasso选择的基础上，进一步做特征选择，从而在一定程度上自适应了因子分解维度。2.根据权利要求1所述的方法，其特征在于：采用了FOBOS算法优化新的目标函数，FOBOS算法是一个迭代优化算法，其具体过程如下：根据FOBOS算法，首先将式(1)所示的目标函数分为两部分f(ω，p(2)，…，p(m))+r(ω，p(2)，…，p(m))(2)其中且FOBOS更新过程为：步骤一：选择合适的正则化参数β1和β2，以及学习率η，令时刻t＝0；步骤二：对执...

【专利技术属性】
技术研发人员：陈松灿，郭少成，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人