一种基于主动学习策略与库空间优化的符号回归方法技术

技术编号:39894425 阅读:8 留言:0更新日期:2023-12-30 13:07
本发明专利技术的目的在于提供一种基于主动学习策略与库空间优化的符号回归方法,属于数据处理技术领域,该方法包括:首先基于改进的主动学习策略选择数据,有效降低语义遗传规划中每颗子树的语义向量;然后会初始化一个由随机子树组成的库空间,并通过对库中的子树执行

【技术实现步骤摘要】
一种基于主动学习策略与库空间优化的符号回归方法


[0001]本专利技术涉及数据处理
,尤其涉及一种基于主动学习策略与库空间优化的符号回归方法


技术介绍

[0002]数据处理技术是指用于收集

存储

处理和分析数据的一系列技术和方法,其中发现隐藏在数据背后的复杂关系,并转化为符合数据分布的数学表达式至关重要

符号回归
(SymbolicRegression

SR)
为这一问题提供了有效的解决途径

具体而言,符号回归的基本思想是根据已知的自变量和因变量之间的关系,通过一系列的符号操作来推导出一个数学表达式,该表达式能够最好地拟合已有的数据

这些符号操作包括加法

减法

乘法

除法

平方

开方等

其中它在由数学表达式组成的空间中进行搜索,试图找到拟合给定数据集的数学表达式

传统的方法主要使用演化计算技术,特别是遗传规划
(Genetic Programming

GP)
来解决这个问题

在基于
GP
的符号回归中,数学表达式被表示为符号树,其中,叶节点是输入变量和常数,非叶节点是操作符
。GP
算法通常初始化一个由许多符号树组成的种群,然后这个种群通过交

变异等方式一代代地进化

通常,
GP
算法会使用一个适应度评估函数来评估种群中每个个体的好坏,通过优胜劣汰的方式,种群搜索到最优的个体

其中个体适应度只取决于程序执行的最终效果,中间效应,如个体树的子树计算的值均被忽略

[0003]近年来,在遗传规划中引入几何语义的方法受到大量关注,关键的创新点在于通过语义空间引导个体朝着更好的适应度方向发展,语义遗传规划从原始空间到语义空间的映射为设计语义算子提供了理论框架

几何语义算子旨在使传统算子的不确定性朝着确定性方向发展,通过语义设定界限,并通过迭代产生具有类似或优于其父代的子程序

目前,该研究方向仍在探索阶段,解决的思路各不相同

例如,一些方法提出了一种角度选择算子和两种角度几何搜索算子,通过利用角度感知为几何算子带来了新的几何性质,能够在每次迭代中逼近目标语义,更重要的是能够抵抗过拟合

此外,还有一些方法通过语义将结构较复杂的树型结构替换为结构简单的树型结构,从而降低计算成本

但,这些方法均需要花费大量时间在库搜索及语义向量的交叉变异交叉上

[0004]因此,语义
GP
仍然是解决符号回归问题的一个简单有力的工具

但是随着问题规模的增加,搜索空间急剧膨胀,传统的语义
GP
方法搜索效率大大降低,很难在有限时间内得到正确的结果

语义
GP
的低效率来源于语义库的维护和搜索,以及语义向量的计算复杂性

因此本提案从这一因素出发,提出了一种新的高效的
GP
方法,可以解决之前的语义
GP
方法计算复杂度高,训练时间长的技术问题


技术实现思路

[0005]本专利技术的目的在于提供一种基于主动学习策略与库空间优化的符号回归方法,用于解决上述现有技术中存在的技术问题,语义
GP
仍然是解决符号回归问题的一个简单有力的工具

但是随着问题规模的增加,搜索空间急剧膨胀,传统语义
GP
方法搜索效率大大降
低,很难在有限时间内得到正确的结果

语义
GP
的低效率来源于其语义空间的大小以及库搜索空间的大小

[0006]为了达到上述目的,本专利技术采用以下技术方案:
[0007]一种基于主动学习策略与库空间优化的符号回归方法,包括以下步骤:
[0008]S1:
通过改进的主动学习策略衡量数据的信息性,多样性,代表性,从而对输入数据进行筛选,进而降低标记成本以及降低语义向量的维度;具体步骤如下:
[0009]S11
:获取数据集,数据集里包含
N
个样本数据;对数据进行归一化,然后按照等比数列1,2,4,
16


通过迭代的方式依次选择等比数列对应个数的样本数据,假设已选出的样本总数用
k
表示,对于剩余未选出的
N

k
个样本数据计算它们与已选出样本之间的距离:
[0010][0011]其中,
x
n
表示待选出样本集中的某个样本,
x
m
表示已选出样本集中的某个样本
,
表示
x
n

k
个已选出样本的最短距离,以衡量实现样本多样性

[0012]S12
:选取回归模型
f(x)
,将未选出的
N

k
个输入数据输入到回归模型中,得到输出计算回归结果与标记之间的距离:
[0013][0014]其中,
y
n
表示样本
x
n
的标签,用于衡量数据的信息性

[0015]S13
:并通过对与进行操作运算,来综合代表数据的多样性与信息性,通过衡量数据的多样性和信息性来选择数据;
[0016]S14
:利用
DBSCAN
聚类算法,对样本数据执行去除噪声的操作,选取具备代表性的数据;
[0017]S2:
初始化种群,用树型结构表示数学表达式;
[0018]S3:
将种群中所有个体树的所有子树构成初始库空间,计算出库空间中每颗子树的语义向量;进一步对库空间中所有个体树采用聚类算法,计算两两个体树语义向量的相似性做对比,衡量个体树之间的相似性,并通过相似性对比去掉相似的子树;
[0019]S4:
每个个体树均可解码为数学表达式,并计算其对应的语义向量,通过对父代树的语义向量执行计算,产生一个新的向量,作为子代向量的值,得到目标语义;
[0020]S5:
衡量库中子树语义与子代期望语义之间的相似性,选择出最优的子树;
[0021]S6
:在库中找到一棵与期望语义最接近的子树后,在替换的过程中对库中选出的子树执行线性缩放,以降低库中子树语义与目标语义之间的误差

[0022]本专利技术提供的一种基于主动学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于主动学习策略与库空间优化的符号回归方法,其特征在于,包括以下步骤:
S1:
通过改进的主动学习策略衡量数据的信息性,多样性,代表性,对输入数据进行筛选,具体包括以下步骤:
S11
:获取数据集,数据集里包含
N
个样本数据;对数据进行归一化,然后按照等比数列1,2,4,
16


通过迭代的方式依次选择等比数列对应个数的样本数据,假设已选出的样本总数用
k
表示,对于剩余未选出的
N

k
个样本数据计算它们与已选出样本之间的距离:其中,
x
n
表示待选出样本集中的某个样本,
x
m
表示已选出样本集中的某个样本
,
表示
x
n

k
个已选出样本的最短距离,以衡量实现样本多样性;
S12
:选取回归模型
f(x)
,将未选出的
N

k
个输入数据输入到回归模型中,得到输出计算回归结果与标记之间的距离:其中,
y
n
表示样本
x
n
的标签,用于衡量数据的信息性;
S13
:通过对与进行操作运算,来综合代表数据的多样性与信息性,通过衡量数据的多样性和信息性来选择数据;
S14
:利用聚类算法,对样本数据执行去除噪声的操作,选取具备代表性的数据;
S2
:初始化种群,用树型结构表示数学表达式;
S3
:种群中所有个体树的所有子树构成初始库空间,使用
S1
得到的数据集计算出库空间中每颗子树的语义向量;进一步对库空间中所有个体树采用聚类算法,计算两两个体树语义向量的相似性做对比,衡量个体树之间的相似性,并通过相似性对比去掉相似的子树;
S4:
每个个体树均可解码为数学表达式,并计算其对应的语义向量,通过对父代树的语义向量执行计算操作,产生一个新的向量,作为子代向量的值,得到目标语义;
S5:
衡量库中子树语义与子代期望语义之间的相似性,选择出最优的子树;
S6
:在库中找到一棵与期望语义最接近的子树后,在替换的过程中对库中选出的子树执行线性缩放,以降低库中子树语义与目标语义之间的误差
。2.
根据权利要求1所述的一种基于主动学习策略与库空间优化的符号回归方法,其特征在于,步骤
S1
中所述回归模型为
XGBoost
模型,所述聚类算法为
DBSCAN
聚类算法,去噪声的具体步骤如下:
S141
:初始化:设置半径
ε
和密度阈值
MinPts

S142
:随机选择一个未被访问的数据点;
S143
:检查该数据点的
ε
邻域内的数据点数量是否大于等于
MinPts
,如果是,则将该数据点标记为核心点,否则标记为噪声点;
S144
:如果该数据点是核心点,则从该点出发,将其半径
ε
邻域内的所有未被访问的数据点加入到当前簇中;
S145
:重复步骤
S144
,直到当前簇中的所有数据点的
ε
邻域都被访问过;
S146
:标记当前簇中的所有数据点为已访问;
S147
:如果当前簇中的数据点数量大于等于
MinPts
,则将该簇加入到最终的聚类结果中;
S148
:重复步骤
S142

S147
,直到所有的数据点都被访问过;最终得到的聚类结果是一组簇,其中每个簇都是由核心点及其
ε
邻域内的数据点组成,同时还会有一些被标记为噪声点的数据点,它们不属于任何簇
。3.
根据权利要求2所述的一种基于主动学习策略与库空间优化的符号回归方法,其特征在于,所述步骤
S2
具体如下:利用进化算法与树形编码方式实现符号回归算法;拟议方法中,首先,我们需要定义一组数学操作符,如加法

减法

乘法

除法等,以及操作数,如整数或小数;这些操作符和操作数将用于构建数学表达式;通过递归的方式,从根节点开始构建子树;对于每个操作符节点,选择适当数量的子节点,并为每个子节点选择相应的操作符或操作数;这样递归地构建子树,直至遍历到叶子节点
。4.
根据权利要求3所述的一种基于主动学习策略与库空间优化的符号回归方法,其特征在于,所述步骤
S3
具体如下:
S31
:将所有种群中个体树的所有子树组成为库空间,并将数据集中的数据带入到个体树中,计算出库空间中每颗子树的语义向量,所有子树语义向量组成语义空间;
S32
:对库空间中所有子树采用
K

中心聚类算法,具体步骤如下:

【专利技术属性】
技术研发人员:胡旺李权洪章语徐宇涵
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1