【技术实现步骤摘要】
用于超声检查机器人的自主运动决策控制方法及系统
本专利技术涉及超声检查机器人控制
,尤其涉及一种用于超声检查机器人的自主运动决策控制方法及系统。
技术介绍
超声检查机器人探仪能够广泛地应用在制造业、钢铁冶金业、金属加工业、化工业等需要缺陷检测和质量控制的领域,也广泛应用于生物医疗、航空航天、铁路交通和锅炉压力容器等领域,能够快速便捷、无损伤、精确地进行工件等检测对象内部机构或多种缺陷(裂纹、夹杂、折叠、气孔、砂眼等)的检测、定位、评估和诊断。随着超声检查机器人的广泛应用,其应用领域还在不断的扩展。目前,超声检查机器人运动决策的控制方法涉及多种控制模型,其中,大部分方法均基于标记或基于运动路径点规划的方式实现。基于标记或基于运动路径点规划的方式关键点在于,如何精确的获取场景中超声检查机器人及检查对象的空间坐标,其中一种主要的方法是利用高精度的三维相机动态地采集机器人及检查对象的三维表面图像,经过图像特征识别、分割等处理,最终计算得出超声检查机器人及检查对象的空间坐标。这对三维相机的三维采集精度和采集帧率,图像处理算法的准确性和效率,以及场景中的光照及成像干扰控制等方面需要非常高的要求,目前的方法从技术成熟性和成本方面都难以满足超声检查的应用要求。因此,现在亟需一种用于超声检查机器人的自主运动决策控制方法及系统来解决上述问题。
技术实现思路
针对现有技术存在的问题,本专利技术提供一种用于超声检查机器人的自主运动决策控制方法及系统。本专利技术提供一种用于超声检查机器人的自主 ...
【技术保护点】
1.一种用于超声检查机器人的自主运动决策控制方法,其特征在于,包括:/n基于超声检查机器人环境模型,获取待检查目标的观察图像对应的奖励函数值,其中,所述超声检查机器人环境模型是由奖励函数和待检查目标的观察图像构成的,所述观察图像为二维图像,包含有待检查目标的区域环境图像、待检查目标的图像和超声检查机器人的图像;/n将所述观察图像输入到训练好的状态表示模型,得到状态表示向量,所述训练好的状态表示模型是由样本观察图像和所述超声检查机器人环境模型中的奖励函数值,对卷积神经网络进行训练得到的;/n将所述状态表示向量和所述奖励函数值输入到训练好的智能体,得到超声检查机器人的运动决策指令,以使得所述超声检查机器人根据所述运动决策指令执行检查动作,其中,所述训练好的智能体是由样本状态表示向量、样本运动决策指令和根据所述样本运动决策指令更新后的样本奖励函数值,对近端策略优化深度强化学习模型进行训练得到的。/n
【技术特征摘要】
1.一种用于超声检查机器人的自主运动决策控制方法,其特征在于,包括:
基于超声检查机器人环境模型,获取待检查目标的观察图像对应的奖励函数值,其中,所述超声检查机器人环境模型是由奖励函数和待检查目标的观察图像构成的,所述观察图像为二维图像,包含有待检查目标的区域环境图像、待检查目标的图像和超声检查机器人的图像;
将所述观察图像输入到训练好的状态表示模型,得到状态表示向量,所述训练好的状态表示模型是由样本观察图像和所述超声检查机器人环境模型中的奖励函数值,对卷积神经网络进行训练得到的;
将所述状态表示向量和所述奖励函数值输入到训练好的智能体,得到超声检查机器人的运动决策指令,以使得所述超声检查机器人根据所述运动决策指令执行检查动作,其中,所述训练好的智能体是由样本状态表示向量、样本运动决策指令和根据所述样本运动决策指令更新后的样本奖励函数值,对近端策略优化深度强化学习模型进行训练得到的。
2.根据权利要求1所述的用于超声检查机器人的自主运动决策控制方法,其特征在于,所述训练好的状态表示模型通过以下步骤训练得到:
获取样本观察图像数据集,所述样本观察图像数据集是由单个RGB相机采集到的多张连续帧数的样本观察图像构建的;
将当前帧样本观察图像输入到初始化的卷积自动编码器模型进行训练,输出得到重建的样本观察图像,并根据所述当前帧样本观察图像和所述重建的样本观察图像,计算交叉熵,将所述交叉熵作为所述初始化的卷积自动编码器模型的损失函数;
将所述当前帧样本观察图像和下一帧样本观察图像输入到初始化的奖励预测模型进行训练,输出得到所述当前帧样本观察图像的样本奖励预测值,并将所述样本奖励预测值和实际奖励值之间的误差,作为所述初始化的奖励预测模型的损失函数;
当满足预设状态表示模型训练条件后,得到训练好的卷积自动编码器模型和训练好的奖励预测模型,并根据所述训练好的卷积自动编码器模型和所述训练好的奖励预测模型,得到训练好的状态表示模型,其中,所述初始化的卷积自动编码器模型和所述初始化的奖励预测模型是由卷积神经网络构建得到的。
3.根据权利要求2所述的用于超声检查机器人的自主运动决策控制方法,其特征在于,所述训练好的智能体通过以下步骤训练得到:
基于所述训练好的状态表示模型,根据所述样本观察图像数据集,得到样本图像状态表示向量和样本奖励预测表示向量;
根据所述样本图像状态表示向量和所述样本奖励预测表示向量,构建样本状态表示向量;
将所述样本状态表示向量输入到初始化的策略网络进行训练,输出得到样本运动决策指令;
将所述样本状态表示向量和所述样本运动决策指令输入到初始化的价值函数网络进行训练,输出得到样本价值函数值;
根据所述样本运动决策指令驱动超声检查机器人执行相应扫描动作,得到超声检查机器人环境模型中当前时刻的样本奖励函数值;
当满足预设智能体训练条件后,根据所述样本奖励函数值,得到训练好的策略网络和训练好的价值函数网络,以得到训练好的智能体。
4.根据权利要求1所述的用于超声检查机器人的自主运动决策控制方法,其特征在于,所述基于超声检查机器人环境模型,获取待检查目标的观察图像对应的奖励函数值,包括:
基于超声检查机器人环境模型,通...
【专利技术属性】
技术研发人员:廖洪恩,张欣然,宁国琛,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。