一种基于主动学习策略与库空间优化的符号回归方法技术

技术编号：39894425 阅读：8 留言：0更新日期：2023-12-30 13:07

本发明专利技术的目的在于提供一种基于主动学习策略与库空间优化的符号回归方法，属于数据处理技术领域，该方法包括：首先基于改进的主动学习策略选择数据，有效降低语义遗传规划中每颗子树的语义向量；然后会初始化一个由随机子树组成的库空间，并通过对库中的子树执行

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主动学习策略与库空间优化的符号回归方法

[0001]本专利技术涉及数据处理
，尤其涉及一种基于主动学习策略与库空间优化的符号回归方法
。

技术介绍

[0002]数据处理技术是指用于收集
、
存储
、
处理和分析数据的一系列技术和方法，其中发现隐藏在数据背后的复杂关系，并转化为符合数据分布的数学表达式至关重要
。
符号回归
(SymbolicRegression
，
SR)
为这一问题提供了有效的解决途径
。
具体而言，符号回归的基本思想是根据已知的自变量和因变量之间的关系，通过一系列的符号操作来推导出一个数学表达式，该表达式能够最好地拟合已有的数据
。
这些符号操作包括加法
、
减法
、
乘法
、
除法
、
平方
、
开方等
。
其中它在由数学表达式组成的空间中进行搜索，试图找到拟合给定数据集的数学表达式
。
传统的方法主要使用演化计算技术，特别是遗传规划
(Genetic Programming
，
GP)
来解决这个问题
。
在基于
GP
的符号回归中，数学表达式被表示为符号树，其中，叶节点是输入变量和常数，非叶节点是操作符
。GP
算法通常初始化一个由许多符号树组成的种群，然后这个种群通过交...

【技术保护点】

【技术特征摘要】
1.
一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，包括以下步骤：
S1:
通过改进的主动学习策略衡量数据的信息性，多样性，代表性，对输入数据进行筛选，具体包括以下步骤：
S11
：获取数据集，数据集里包含
N
个样本数据；对数据进行归一化，然后按照等比数列1，2，4，
16
，
…
通过迭代的方式依次选择等比数列对应个数的样本数据，假设已选出的样本总数用
k
表示，对于剩余未选出的
N
‑
k
个样本数据计算它们与已选出样本之间的距离：其中，
x
n
表示待选出样本集中的某个样本，
x
m
表示已选出样本集中的某个样本
,
表示
x
n
到
k
个已选出样本的最短距离，以衡量实现样本多样性；
S12
：选取回归模型
f(x)
，将未选出的
N
‑
k
个输入数据输入到回归模型中，得到输出计算回归结果与标记之间的距离：其中，
y
n
表示样本
x
n
的标签，用于衡量数据的信息性；
S13
：通过对与进行操作运算，来综合代表数据的多样性与信息性，通过衡量数据的多样性和信息性来选择数据；
S14
：利用聚类算法，对样本数据执行去除噪声的操作，选取具备代表性的数据；
S2
：初始化种群，用树型结构表示数学表达式；
S3
：种群中所有个体树的所有子树构成初始库空间，使用
S1
得到的数据集计算出库空间中每颗子树的语义向量；进一步对库空间中所有个体树采用聚类算法，计算两两个体树语义向量的相似性做对比，衡量个体树之间的相似性，并通过相似性对比去掉相似的子树；
S4:
每个个体树均可解码为数学表达式，并计算其对应的语义向量，通过对父代树的语义向量执行计算操作，产生一个新的向量，作为子代向量的值，得到目标语义；
S5:
衡量库中子树语义与子代期望语义之间的相似性，选择出最优的子树；
S6
：在库中找到一棵与期望语义最接近的子树后，在替换的过程中对库中选出的子树执行线性缩放，以降低库中子树语义与目标语义之间的误差
。2.
根据权利要求1所述的一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，步骤
S1
中所述回归模型为
XGBoost
模型，所述聚类算法为
DBSCAN
聚类算法，去噪声的具体步骤如下：
S141
：初始化：设置半径
ε
和密度阈值
MinPts
；
S142
：随机选择一个未被访问的数据点；
S143
：检查该数据点的
ε
邻域内的数据点数量是否大于等于
MinPts
，如果是，则将该数据点标记为核心点，否则标记为噪声点；
S144
：如果该数据点是核心点，则从该点出发，将其半径
ε
邻域内的所有未被访问的数据点加入到当前簇中；
S145
：重复步骤
S144
，直到当前簇中的所有数据点的
ε
邻域都被访问过；
S146
：标记当前簇中的所有数据点为已访问；
S147
：如果当前簇中的数据点数量大于等于
MinPts
，则将该簇加入到最终的聚类结果中；
S148
：重复步骤
S142
‑
S147
，直到所有的数据点都被访问过；最终得到的聚类结果是一组簇，其中每个簇都是由核心点及其
ε
邻域内的数据点组成，同时还会有一些被标记为噪声点的数据点，它们不属于任何簇
。3.
根据权利要求2所述的一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，所述步骤
S2
具体如下：利用进化算法与树形编码方式实现符号回归算法；拟议方法中，首先，我们需要定义一组数学操作符，如加法
、
减法
、
乘法
、
除法等，以及操作数，如整数或小数；这些操作符和操作数将用于构建数学表达式；通过递归的方式，从根节点开始构建子树；对于每个操作符节点，选择适当数量的子节点，并为每个子节点选择相应的操作符或操作数；这样递归地构建子树，直至遍历到叶子节点
。4.
根据权利要求3所述的一种基于主动学习策略与库空间优化的符号回归方法，其特征在于，所述步骤
S3
具体如下：
S31
：将所有种群中个体树的所有子树组成为库空间，并将数据集中的数据带入到个体树中，计算出库空间中每颗子树的语义向量，所有子树语义向量组成语义空间；
S32
：对库空间中所有子树采用
K
‑
中心聚类算法，具体步骤如下：

【专利技术属性】
技术研发人员：胡旺，李权洪，章语，徐宇涵，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人