【技术实现步骤摘要】
一种基于主动学习策略与库空间优化的符号回归方法
[0001]本专利技术涉及数据处理
,尤其涉及一种基于主动学习策略与库空间优化的符号回归方法
。
技术介绍
[0002]数据处理技术是指用于收集
、
存储
、
处理和分析数据的一系列技术和方法,其中发现隐藏在数据背后的复杂关系,并转化为符合数据分布的数学表达式至关重要
。
符号回归
(SymbolicRegression
,
SR)
为这一问题提供了有效的解决途径
。
具体而言,符号回归的基本思想是根据已知的自变量和因变量之间的关系,通过一系列的符号操作来推导出一个数学表达式,该表达式能够最好地拟合已有的数据
。
这些符号操作包括加法
、
减法
、
乘法
、
除法
、
平方
、
开方等
。
其中它在由数学表达式组成的空间中进行搜索,试图找到拟合给定数据集的数学表达式
。
传统的方法主要使用演化计算技术,特别是遗传规划
(Genetic Programming
,
GP)
来解决这个问题
。
在基于
GP
的符号回归中,数学表达式被表示为符号树,其中,叶节点是输入变量和常数,非叶节点是操作符
。GP
算法通常初始化一个由许多符号树组成的种群,然后这个种群通过交 ...
【技术保护点】
【技术特征摘要】
1.
一种基于主动学习策略与库空间优化的符号回归方法,其特征在于,包括以下步骤:
S1:
通过改进的主动学习策略衡量数据的信息性,多样性,代表性,对输入数据进行筛选,具体包括以下步骤:
S11
:获取数据集,数据集里包含
N
个样本数据;对数据进行归一化,然后按照等比数列1,2,4,
16
,
…
通过迭代的方式依次选择等比数列对应个数的样本数据,假设已选出的样本总数用
k
表示,对于剩余未选出的
N
‑
k
个样本数据计算它们与已选出样本之间的距离:其中,
x
n
表示待选出样本集中的某个样本,
x
m
表示已选出样本集中的某个样本
,
表示
x
n
到
k
个已选出样本的最短距离,以衡量实现样本多样性;
S12
:选取回归模型
f(x)
,将未选出的
N
‑
k
个输入数据输入到回归模型中,得到输出计算回归结果与标记之间的距离:其中,
y
n
表示样本
x
n
的标签,用于衡量数据的信息性;
S13
:通过对与进行操作运算,来综合代表数据的多样性与信息性,通过衡量数据的多样性和信息性来选择数据;
S14
:利用聚类算法,对样本数据执行去除噪声的操作,选取具备代表性的数据;
S2
:初始化种群,用树型结构表示数学表达式;
S3
:种群中所有个体树的所有子树构成初始库空间,使用
S1
得到的数据集计算出库空间中每颗子树的语义向量;进一步对库空间中所有个体树采用聚类算法,计算两两个体树语义向量的相似性做对比,衡量个体树之间的相似性,并通过相似性对比去掉相似的子树;
S4:
每个个体树均可解码为数学表达式,并计算其对应的语义向量,通过对父代树的语义向量执行计算操作,产生一个新的向量,作为子代向量的值,得到目标语义;
S5:
衡量库中子树语义与子代期望语义之间的相似性,选择出最优的子树;
S6
:在库中找到一棵与期望语义最接近的子树后,在替换的过程中对库中选出的子树执行线性缩放,以降低库中子树语义与目标语义之间的误差
。2.
根据权利要求1所述的一种基于主动学习策略与库空间优化的符号回归方法,其特征在于,步骤
S1
中所述回归模型为
XGBoost
模型,所述聚类算法为
DBSCAN
聚类算法,去噪声的具体步骤如下:
S141
:初始化:设置半径
ε
和密度阈值
MinPts
;
S142
:随机选择一个未被访问的数据点;
S143
:检查该数据点的
ε
邻域内的数据点数量是否大于等于
MinPts
,如果是,则将该数据点标记为核心点,否则标记为噪声点;
S144
:如果该数据点是核心点,则从该点出发,将其半径
ε
邻域内的所有未被访问的数据点加入到当前簇中;
S145
:重复步骤
S144
,直到当前簇中的所有数据点的
ε
邻域都被访问过;
S146
:标记当前簇中的所有数据点为已访问;
S147
:如果当前簇中的数据点数量大于等于
MinPts
,则将该簇加入到最终的聚类结果中;
S148
:重复步骤
S142
‑
S147
,直到所有的数据点都被访问过;最终得到的聚类结果是一组簇,其中每个簇都是由核心点及其
ε
邻域内的数据点组成,同时还会有一些被标记为噪声点的数据点,它们不属于任何簇
。3.
根据权利要求2所述的一种基于主动学习策略与库空间优化的符号回归方法,其特征在于,所述步骤
S2
具体如下:利用进化算法与树形编码方式实现符号回归算法;拟议方法中,首先,我们需要定义一组数学操作符,如加法
、
减法
、
乘法
、
除法等,以及操作数,如整数或小数;这些操作符和操作数将用于构建数学表达式;通过递归的方式,从根节点开始构建子树;对于每个操作符节点,选择适当数量的子节点,并为每个子节点选择相应的操作符或操作数;这样递归地构建子树,直至遍历到叶子节点
。4.
根据权利要求3所述的一种基于主动学习策略与库空间优化的符号回归方法,其特征在于,所述步骤
S3
具体如下:
S31
:将所有种群中个体树的所有子树组成为库空间,并将数据集中的数据带入到个体树中,计算出库空间中每颗子树的语义向量,所有子树语义向量组成语义空间;
S32
:对库空间中所有子树采用
K
‑
中心聚类算法,具体步骤如下:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。