一种模型训练方法及相关装置制造方法及图纸

技术编号：44908051 阅读：20 留言：0更新日期：2025-04-08 18:53

本申请公开了一种模型训练方法及相关装置，应用于机器人技术领域，模型训练方法包括：获取训练数据，对训练数据叠加噪声；利用数据生成模型，从带噪声的训练数据中提取主成分信息，依据主成分信息进行数据重构；将重构数据输入强化学习模型进行训练；根据带噪声的训练数据和重构数据确定重构损失，并确定强化学习模型的强化学习损失；根据确定的损失对数据生成模型和强化学习模型进行参数更新；训练结束后，得到用于部署于实物机器人上的数据生成模型和强化学习模型。通过本申请公开的方法，可快速训练得到具有较强抗噪声能力的模型（基于数据生成模型的强化学习模型），进而将其部署到实物机器人时，在真实世界中可获得较好的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器人，尤其涉及一种模型训练方法及相关装置。

技术介绍

1、随着人工智能技术的迅猛发展，机器人技术已经从科幻走向现实，广泛应用于工业、家庭、医疗、教育等多个领域。机器人不仅能够完成重复性高、危险性大的劳动，还能在复杂的环境中自主导航和操作，极大地提升了生产力和生活便利性。

2、强化学习（reinforcement learning，rl）作为机器学习的一个分支，通过试错反馈机制，使智能体在环境中不断学习和优化决策策略（强化学习模型包括智能体与环境，在整个强化学习过程中，智能体会与环境交互），从而实现自主行为。强化学习在机器人技术中的应用，使得机器人能够通过与环境互动，自主完成导航、操作、避障、协作等任务，具备更强的适应性和智能化水平。

3、由于强化学习模型在实物机器人上训练的成本较高，硬件损失巨大，因此，目前大多在机器人仿真环境中训练强化学习模型，训练得到的强化学习模型再部署到实物机器人。然而，将在机器人仿真环境中训练得到的强化学习模型部署到实物机器人时，强化学习模型在真实环境中的效果相比于在机器人仿真...

【技术保护点】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，利用数据生成模型，从所述带噪声的训练数据中提取主成分信息，包括：

3.根据权利要求2所述的模型训练方法，其特征在于，所述数据生成模型包括编码器和解码器；

4.根据权利要求3所述的模型训练方法，其特征在于，所述编码器包括第一全连接层和第二全连接层，所述带噪声的训练数据依次经所述第一全连接层、所述第二全连接层处理；

5.根据权利要求3所述的模型训练方法，其特征在于，利用所述数据生成模型，将所述随机值映射到所述主成分分布上，得到主成分信息，包括：

<...

【技术特征摘要】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，利用数据生成模型，从所述带噪声的训练数据中提取主成分信息，包括：

3.根据权利要求2所述的模型训练方法，其特征在于，所述数据生成模型包括编码器和解码器；

5.根据权利要求3所述的模型训练方法，其特征在于，利用所述数据生成模型，将所述随机值映射到所述主成分分布上，得到主成分信息，包括：

6.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述重构损失和所述强化学习损失，...

【专利技术属性】
技术研发人员：许喆，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人