一种基于深度强化学习的迁移源域选择方法技术

技术编号：41114197 阅读：3 留言：0更新日期：2024-04-25 14:05

本发明专利技术提供了一种基于深度强化学习的迁移源域选择方法，属于工程装备技术领域，该方法包括获取源域工程项目以及目标域工程项目，对基于深度强化学习的源域选择模型进行训练；根据源域选择模型的训练结果，训练基于随机森林的候选域预测模型；利用候选域预测模型对候选域数量进行预测，并利用预训练的、对应预测候选域数量的源域选择模型选择最优迁移源域，完成对迁移源域的选择。本发明专利技术解决了源域工程项目与目标域工程项目之间的距离难度量，迁移源域选择模型输入形状难确定，迁移源域选择方法难以适应工程项目数据分布动态变化的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于工程装备，尤其涉及一种基于深度强化学习的迁移源域选择方法和一个候选域预测方法。

技术介绍

1、随着信息技术和网络通信技术的飞速发展，数据成为一种新的知识载体。通过算法或智能系统显性化数据蕴含的经验知识，能提高员工学习能力和决策质量。在施工企业中，自动化建造已经成为流行，许多工程装备已经搭载各种先进的传感装备和算法模型。用算法模型预测一些关键参数能将传感数据中的知识显性化，使施工团队规避风险，更高效率地完成施工作业。同类型的工程项目可能面临类似的施工问题和使用同样的工程装备。在相似项目间利用算法模型迁移数据知识，能有效促进新工程项目实施。与此同时，算法模型所需要的训练数据不完整也是需要进行数据知识迁移的一个重要原因。由于神经网络模型强大的表征能力，许多施工企业用深度神经网络进行知识提取与辅助决策。这些深度学习模型往往需要在大量数据上进行训练。然而，工程项目一般是长期的，施工数据时序/在线到来的。在工程项目实施初期，收集到的施工数据较少，少量数据难以支撑深度神经网络的训练需求。

2、迁移学习可以暖启动目标神经网络参数，从而缓解目标项目数据稀缺的困境。然而，当源域与目标域的差异较大时，知识可能会发生负迁移。许多学者通过设计域自适应模块来减少这种差异，提高知识迁移效果，如微调，dann(domain adaptive neuralnetwork)，daan(dynamic adversarial adaptation network)等。这些域自适应算法在处理域间条件分布和边际分布上还有待提升。一些学者通过距离

3、已有技术在度量源域与目标域距离方面做出了许多贡献。然而，不同距离的源域选择算法在不同的数据分布下，计算效果存在差异，仅仅考虑单一距离算法并不准确。工程项目环境多样，且在施工过程中随时间变化，收集的施工数据的分布也随时变化。然而，现有的研究技术并没有关注到这种变化的数据分布，难以适应性地进行源域选择。因此，如何适应数据分布变化来选择合适的迁移源域是一个问题。深度强化学习通过agent与环境交互试错，自适应地进行行动，是一个智能的决策工具。如果agent能与工程项目环境交互，选择合适的知识迁移源域，那么工程项目知识迁移源选择的难题将会迎刃而解。

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供的一种基于深度强化学习的迁移源域选择方法，解决了源域工程项目与目标域工程项目之间的距离难度量，迁移源域选择模型输入形状难确定，迁移源域选择方法难以适应工程项目数据分布动态变化的问题。

2、为了达到以上目的，本专利技术采用的技术方案为：

3、本方案提供一种基于深度强化学习的迁移源域选择方法，包括以下步骤：

4、s1、获取源域工程项目以及目标域工程项目，对基于深度强化学习的源域选择模型进行训练；

5、s2、根据源域选择模型的训练结果，训练基于随机森林的候选域预测模型；

6、s3、利用候选域预测模型对候选域数量进行预测，并利用预训练的、对应预测候选域数量的源域选择模型选择最优迁移源域，完成对迁移源域的选择。

7、本专利技术的有益效果是：工程项目的施工数据随施工环境和工程装备改变而改变。现有的迁移学习源域选择方法的距离度量方式单一，难以适应不同的数据分布。本专利技术设计一个基于深度强化学习的迁移源域选择模型，该模型能与施工数据交互，适应数据分布进行最优迁移源域的选择。并且，工程项目随着企业发展逐渐增加，可用迁移源域不断变化，源域选择模型的输入形状(即候选域与目标域之间的距离矩阵的形状)难以确定。本专利技术构建了一个候选域预测模型来预测候选域数量，解决了上述问题。

8、进一步地，所述基于深度强化学习的源域选择模型的训练过程如下：

9、a1、随机初始化源域选择模型中的网络权重，以及初始化源域选择模型参数；

10、a2、从候选域工程项目ps中随机选择一个工程项目作为目标工程项目，将除目标工程项目外的工程项目作为源域工程项目；

11、a3、按时间顺序从目标域工程项目ct中获取目标域数据集p；

12、a4、根据下式，选择源域工程项目中的前k个工程项目作为候选域，并计算得到源域工程项目与目标域工程项目的多指标距离矩阵st，其中，多指标距离矩阵st为多指标距离的状态空间：

13、

14、其中，avgsim表示平均距离运算，m表示距离度量指标的总个数，m表示源域与目标域的曼哈顿距离、切比雪夫距离、布雷克蒂斯距离、闵可夫斯基距离、交叉熵、巴士距离和最大均值差异mmd的相反数以及皮尔逊相关系数、余弦相似度组成的集合，mi表示源域与目标域在m中的第i个指标的距离值；

15、a5、根据距离矩阵st，利用卷积层和全连接层，提取通用决策向量o1；

16、a6、通过计算得到源域工程项目与目标域工程项目的距离指标间的信号差g，得到干扰决策的信息差向量o2；

17、a7、将通用决策向量o1与干扰决策的信息差向量o2相减，得到过滤信息差后的决策信息q；

18、a8、选择决策信息q中包含的动作at，并根据下式计算得到奖励r，其中，动作at为k个候选域索引组成的集合：

19、

20、其中，k表示候选域，β表示奖励函数的差异系数，argsort(-re)表示对re进行降序排序，re表示k个候选源域到目标域工程项目的迁移模型预测r2的集合，r2表示拟合优度，表示执行动作at后迁移模型预测得到的r2，index(·)表示获取括号中的元素在其所属列表中的下标索引；

21、a9、判断目标域数据集p是否为目标域工程项目ct的最后一个目标域数据集，若是，则进入步骤a10，否则，返回步骤a2；

22、a10、执行步骤a1-a9，得到目标域数据集p与第k个候选域的距离矩阵st+1，并保存经验元组(st,at,rt+1)，其中，rt+1表示t时刻多指标距离的状态空间st转移至t+1时刻多指标距离的状态空间st+1的奖励；

23、a11、更新参数，完成对源域选择模型的训练。

24、上述进一步方案的技术效果是：由于不同距离指标在不同数据分布下发挥的作用不同，并且不同项目具有不同的数据分布，因此，多种距离指标彼此可能是冲突的。这些指标的冲突关系会随数据分布变化而变化，不利于算法学习。本专利技术改进深度强化学习的源域选择模型double deep q-network(ddqn)以缓解指标之间的冲突，提高源域选择的正确率。

25、再进一步地，所述计算得到源域工程项目与目标域工程项目的距离矩阵st的具体过程如下：

26、b1、根据确定候选域本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的迁移源域选择方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的迁移源域选择方法，其特征在于，所述基于深度强化学习的源域选择模型的训练过程如下：

3.根据权利要求2所述的基于深度强化学习的迁移源域选择方法，其特征在于，所述计算得到源域工程项目与目标域工程项目的距离矩阵St的具体过程如下：

4.根据权利要求3所述的基于深度强化学习的迁移源域选择方法，其特征在于，所述干扰决策的信息差向量o2的表达式如下：

5.根据权利要求4所述的基于深度强化学习的迁移源域选择方法，其特征在于，所述候选域预测模型的训练过程如下：

6.根据权利要求5所述的基于深度强化学习的迁移源域选择方法，其特征在于，所述距离特征fp的表达式如下：

7.根据权利要求6所述的基于深度强化学习的迁移源域选择方法，其特征在于，所述候选域预测模型的表达式如下：

8.根据权利要求7所述的基于深度强化学习的迁移源域选择方法，其特征在于，所述步骤S3包括以下步骤：

【技术特征摘要】

1.一种基于深度强化学习的迁移源域选择方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的迁移源域选择方法，其特征在于，所述基于深度强化学习的源域选择模型的训练过程如下：

3.根据权利要求2所述的基于深度强化学习的迁移源域选择方法，其特征在于，所述计算得到源域工程项目与目标域工程项目的距离矩阵st的具体过程如下：

4.根据权利要求3所述的基于深度强化学习的迁移源域选择方法，其特征在于，所述干扰决策的信息差向量o2的...

【专利技术属性】
技术研发人员：徐进，补金凤，朱菁，
申请(专利权)人：西南交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人