当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于误差-模糊度分解的集成学习需求预测方法技术

技术编号:38548878 阅读:9 留言:0更新日期:2023-08-22 20:56
本发明专利技术公开了一种基于误差

【技术实现步骤摘要】
一种基于误差

模糊度分解的集成学习需求预测方法


[0001]本专利技术涉及机器学习的数据驱动决策
,更具体的说是涉及一种基于误差

模糊度分解的集成学习需求预测方法。

技术介绍

[0002]预测,是大数据时代的重要课题。随着大数据、数字经济的兴起,数据在商业运营和决策中发挥了更加重要的作用,管理决策越来越倾向于借助数据和数据分析。由此,近年来兴起数据驱动决策的热潮,并且已经开始在实践中产生了巨大的经济效益。预测是数据驱动决策的重要方向,借助大量的、高维的数据进行预测,可以为科学决策提供基础和支撑。例如,需求预测已经成为新零售等商业模式变革下产品运营和供应链管理的重要工作内容。
[0003]现实场景中存在大量高特征维度、小样本量的预测任务。针对这类任务,采用集成学习具有两大优点:(1)通过特征抽样对单个基学习器进行降维,减少过拟合;(2)通过多个基学习器的集成,提高预测结果的稳定性。要得到泛化性能强的集成,基学习器之间应尽可能存在较大差异。然而,为了获得好的集成效果,基学习器的性能不能太差。也就是说,由于抽样的随机性,往往难以兼顾“准确性”和“多样性”,即“好而不同”的基学习器难以获得。
[0004]基于以上背景,如何考虑采用有交叠的采样子集,设计一种能够更好地兼顾“好”和“不同”的集成学习预测方法是本领域技术人员亟需解决的技术问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种基于误差

模糊度分解的集成学习需求预测方法,能够解决在高特征维度、小样本量的数据驱动决策任务中,基于集成学习的预测所存在的技术问题。
[0006]为了实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于误差

模糊度分解的集成学习需求预测方法,包括以下步骤:
[0008]S1、提取每个产品的属性特征集,记为AF
i

[0009]S2、基于属性特征集AF
i
对所有产品进行聚类,得到相似产品组成的产品簇;
[0010]S3、提取产品i的预测目标数据和预测特征,构造初始预测特征集OF
i

[0011]S4、对每一个待预测产品的初始预测特征集OF
i
进行特征筛选,得到产品级重要特征集IMF
i
和产品级特征重要性标记L
i
,其中保留的特征标记为1,被剔除的特征标记为0;
[0012]S5、将同一簇内产品对应的初始预测特征集OF
i
合并,构建簇内预测数据集并进行筛选,得到簇级重要特征集和簇级特征重要性标记其中,CL
i
表示产品i所在的簇;
[0013]S6、对于每个产品,将自身的产品级重要特征和簇级重要特征合并,构建综合重要特征集
[0014]S7、对产品级特征重要性标记L
i
和簇级特征重要性标记进行加权平均,计算综合重要特征集中每个特征的重要度并进行排序;
[0015]S8、根据排序结果,选取头部的特征作为锚定特征,从剔除锚定特征后的综合重要特征集中有放回地随机抽取其他特征作为模糊特征,将锚定特征和模糊特征合并作为一个特征组合;
[0016]S9、将多个特征组合分别输入机器学习模型训练基学习器,直至损失函数收敛,利用得到的基学习器预测需求;
[0017]S10、将多个基学习器的预测结果集成,得到最终的需求预测结果。
[0018]可选的,S1中,产品属性特征包括:产地、品牌、材质、工艺、规格、类目、功能参数、价位、渠道特性、社会属性、使用寿命、消费速度、相对价格水平、市场表现特征。
[0019]可选的,S2中,对所有产品进行聚类的方法包括:划分法、层次法、密度算法、图论聚类法、网格算法、模型算法。
[0020]可选的,S4中,对每一个待预测产品的初始预测特征集OF
i
进行特征筛选的方法包括:卡方选择法、相关系数法、卡方检验、互信息法、递归特征消除法、基于惩罚项的特征选择方法、基于树模型的特征选择方法。
[0021]可选的,S7中,对产品级特征重要性标记L
i
和簇级特征重要性标记进行加权平均,具体计算公式为:
[0022][0023]式中:α表示产品i本身的产品级重要特征对应的权重;β表示产品簇CL
i
内其他产品的产品级重要特征对应的权重;γ表示产品簇CL
i
的簇级重要特征对应的权重;|CL
i
|表示产品簇CL
i
内的产品数,则α+(|CL
i
|

1)β+γ=1,0≤α,β,γ≤1;L
i
表示产品i本身的特征重要性标记,L
j
表示产品j本身的特征重要性标记,R
i
表示特征的综合重要度。
[0024]可选的,S8中,锚定特征的选取数量介于1到N之间;其中,N为综合重要特征集的特征数。
[0025]可选的,S9中,机器学习模型包括:神经网络、随机森林、支持向量机、多元回归模型。
[0026]可选的,S9中,损失函数为的单调递增函数,具体为:
[0027][0028]式中:i表示第i个产品,j表示第j个样本;表示模型对第i个产品、第j个样本的预测损失;和分别表示过多预测和过少预测的成本;表示第i个产品、第j个样本的预测特征;和表示第i个产品、第j个样本的预测值;s和t均为正实数;表示第i个产品、第j个样本的实际预测值,L(
·
)表示损失函数。
[0029]可选的,S10中,将多个基学习器的预测结果集成的方法包括:期望平均法、分位数
法、回归法。
[0030]经由上述的技术方案可知,与现有技术相比,本专利技术提供了一种基于误差

模糊度分解的集成学习需求预测方法,具有以下有益效果:
[0031](1)通过对重要特征集进行抽样,可以减少模型输入的特征数,提升单个基学习器的预测效果;
[0032](2)通过训练多个基学习器构建集成模型进行预测,降低了模型的方差,提高了模型的稳定性和预测结果的可靠性;
[0033](3)本专利技术提出的集成算法的复杂度大大低于传统的完全随机集成模型,且预测性能优于传统的集成学习算法。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0035]图1为本专利技术提供的基于误差

模糊度分解的集成学习需求预测方法的流程图。
具体实施方式
[0036]下面将结合本专利技术实施例中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于误差

模糊度分解的集成学习需求预测方法,其特征在于,包括以下步骤:S1、提取每个产品的属性特征集,记为AF
i
;S2、基于属性特征集AF
i
对所有产品进行聚类,得到相似产品组成的产品簇;S3、提取产品i的预测目标数据和预测特征,构造初始预测特征集OF
i
;S4、对每一个待预测产品的初始预测特征集OF
i
进行特征筛选,得到产品级重要特征集IMF
i
和产品级特征重要性标记L
i
,其中保留的特征标记为1,被剔除的特征标记为0;S5、将同一簇内产品对应的初始预测特征集OF
i
合并,构建簇内预测数据集并进行筛选,得到簇级重要特征集和簇级特征重要性标记其中,CL
i
表示产品i所在的簇;S6、对于每个产品,将自身的产品级重要特征和簇级重要特征合并,构建综合重要特征集S7、对产品级特征重要性标记L
i
和簇级特征重要性标记进行加权平均,计算综合重要特征集中每个特征的重要度并进行排序;S8、根据排序结果,选取头部的特征作为锚定特征,从剔除锚定特征后的综合重要特征集中有放回地随机抽取其他特征作为模糊特征,将锚定特征和模糊特征合并作为一个特征组合;S9、将多个特征组合分别输入机器学习模型训练基学习器,直至损失函数收敛,利用得到的基学习器预测需求;S10、将多个基学习器的预测结果集成,得到最终的需求预测结果。2.根据权利要求1所述的一种基于误差

模糊度分解的集成学习需求预测方法,其特征在于,S1中,产品属性特征包括:产地、品牌、材质、工艺、规格、类目、功能参数、价位、渠道特性、社会属性、使用寿命、消费速度、相对价格水平、市场表现特征。3.根据权利要求1所述的一种基于误差

模糊度分解的集成学习需求预测方法,其特征在于,S2中,对所有产品进行聚类的方法包括:划分法、层次法、密度算法、图论聚类法、网格算法、模型算法。4.根据权利要求1所述的一种基于误差

模糊度分解的集成学习需求预测方法,其特征在于,S4中,对每一个待预测产品的初始预测特征集OF
i<...

【专利技术属性】
技术研发人员:周云王明征赵健亦黄小鹏颜炅
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1