System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的骨盆骨折复位路径规划方法技术_技高网

一种基于深度强化学习的骨盆骨折复位路径规划方法技术

技术编号:40003258 阅读:11 留言:0更新日期:2024-01-09 04:15
一种基于深度强化学习的骨盆骨折复位路径规划方法,构建骨折复位虚拟环境,用于深度强化学习的训练;采用考虑骨盆形状特征的碰撞检测方法,用于评估路径的安全性;提供了一种基于先验环境知识引导的深度强学习框架,并基于该框架设计了一种骨盆骨折复位路径规划方法。本发明专利技术所提方法能够适应不同类型和初始位置的骨盆骨折,具有较高的稳定性和可靠性,为骨盆骨折复位手术提供了一种创新的路径规划方案。

【技术实现步骤摘要】

本专利技术属于人工智能,具体的说是一种基于深度强化学习的骨盆骨折复位路径规划方法


技术介绍

1、骨盆骨折是一种常见的创伤,通常由高能撞击造成,其致残率高达60%,死亡率达到了14%。精准复位的同时还需要规避骨端碰撞并有效避免软组织二次损伤,选择合适的复位路径是达成上述目标的关键。将机器人技术引入骨盆骨折复位手术是微创复位手术的必然趋势。由于盆腔内环境复杂多变,充满软硬组织,机器人复位过程中需要考虑骨端之间的碰撞,因此需要一种可靠、安全的方法对骨盆骨折复位的轨迹进行规划。机器人辅助骨盆骨折复位的轨迹规划问题是一个高维连续空间的规划问题,需要调整骨块在三维空间中的位置以及旋转姿态。此外,骨盆骨折的结构不稳定性以及临床手术时为减少肌肉牵拉力采用的骨盆牵引术,均会导致术中骨端的实际位姿与术前规划时的位姿有所不同,对机器人的轨迹规划提出了更高的要求。

2、传统的复位路径规划方法主要包括基于关键点的路径规划和基于智能搜索算法的路径规划。然而,这些传统方法依赖于离线规划时的骨块位姿。如果术中骨块位姿发生变化,就需要重新建立状态空间模型并进行新一轮搜索,这不仅会耗费大量时间,规划效率低。

3、深度强化学习是一种通过与环境的实时交互,训练神经网络获取最优策略,从而适应复杂动态环境的方法。近年来,该方法在很多领域得到了很好的应用,尤其是在解决复杂动态环境中的轨迹和路径规划问题上,具有适应环境变化而快速规划的能力,表现出了良好的鲁棒性。然而,传统的深度强化学习策略在骨盆骨折复位这类多维连续动作空间路径规划应用中仍然存在一些挑战。在骨盆骨折复位路径规划问题中,由于状态空间与动作空间的映射关系复杂,因此训练结果通常需要大量的迭代步骤,且奖励信号往往难以稳定地收敛。与其他应用场景不同,在骨折复位手术中我们希望避免骨块姿态的反复调整,因为这会从而避免对软组织造成不必要的伤害,而仅仅依靠奖励对智能体进行引导规划难以实现这一目标。


技术实现思路

1、为了克服已有技术的不足,本专利技术提供了一种基于先验环境知识引导的深度强学习框架及基于该框架的骨盆骨折复位路径规划方法,设计了一个基于骨块位置与姿态等先验知识的姿态引导模块,该模块分析骨块起点姿态和终点姿态之间的关系,计算骨块在每次平移中的最佳旋转角度,并将计算结果反馈给双延迟深度确定性策略梯度(td3)算法中的演员网络,从而改进了网络输出的动作;在演员网络输出的动作中引入了随着训练集变化的噪声动作,以鼓励智能体在算法训练的早期广泛地探索状态空间。

2、本专利技术解决其技术问题所采用的技术方案是:

3、一种基于深度强化学习的骨盆骨折复位路径规划方法,包括以下步骤:

4、步骤1:根据采集的患者骨折数据搭建骨盆骨折复位仿真环境,基于骨盆对称性获取镜像参考模型得到复位标准数据,并根据骨盆相撞特点设计合适的碰撞检测算法,用于路径的安全性检测;

5、步骤2:构建改进的td3算法:在算法与环境交互训练的过程中,引入姿态引导模块;所述姿态引导模块根据环境信息提供先验知识来协助算法模型理解复位过程中位置移动与姿态调整的关系从而达到加快算法收敛速度,提高算法收敛性性能的目的;

6、步骤3:针对骨盆骨折复位目标,设计改进td3算法与环境的交互接口设置,包括状态空间、动作空间以及奖励函数,其中奖励函数由四部分组成:与目标的直线距离奖惩、与目标的角度距离奖惩、位置状态的奖惩、动作的代价惩罚;

7、步骤4:在步骤1搭建的虚拟环境中采用改进td3算法对策略模型参数进行训练优化,使用训练完成后的神经网络模型完成骨块无碰撞的路径规划;机器人与环境交互产生的经验均存放于设定的经验池中,用于训练神经网络的参数;训练完成后的网络模型能为根据术中骨块位置快速地生成一条安全的复位路径。

8、进一步,所述步骤3中,与目标的直线距离奖惩包括此时骨块所处位置距离目标位置较本回合中距离目标的最小距离是否有更靠近,如果没有更靠近,则给予惩罚。

9、与目标的直线距离奖惩函数是为了让断裂骨块接近目标位置而设定,奖励函数如下:在智能体执行移动动作前后,分别计算当前骨块与目标位置之间的欧式距离并根据获取该回合的目标距离最小值,然后按获取第一部分的奖励,该部分奖励鼓励智能体靠近目标位置,当目标距离缩小时,给予正向的奖励,反之则给予负向的惩罚。

10、再进一步,所述步骤3中,与目标角度距离奖惩包括此时骨块姿态距离目标姿态相差角度相较上一时刻的角度距离是否也有减小,如果没有减小,则给予惩罚。

11、与目标的角度距离奖惩函数为了协助断裂骨块完成姿态的调整,由于状态空间中采用四元数表示骨块姿态,因此可以利用四元数的角距离公式判断姿态校正情况从而对奖励进行设置,角距离计算公式如下所示:其中<pt,pend>表示时间步长t时刻的姿态pt与目标姿态pend的点积,该部分奖励定义如下:在智能体执行动作前后,分别计算骨块姿态与目标姿态之间的角距离,若角度减小则给予奖励,反之则给予惩罚。

12、所述步骤3中,位置状态的奖惩包括用碰撞检测算法检测骨块位置,若发生碰撞则给予惩罚;当骨块位姿与目标位姿一致时,给予奖励。

13、位置状态的奖惩函数根据骨块所处位置的环境反馈进行奖惩的设计,当骨块所处状态超过边界或者发生碰撞则给予负向的惩罚,当骨块达到目标位置给予正向的奖励,具体奖惩函数如下:其中是常数,通过设置值来调整发生碰撞或者超出边界时的奖惩的力度。

14、更进一步,所述步骤3中,动作的代价惩罚包括算法在执性动作时,按照位移量和角度偏移量设置惩罚值,其目的是避免算法进行无意义的探索,帮助算法收敛。

15、动作的代价惩罚函数根据动作的移动量和旋转量给予负向的惩罚,其目的是促使智能体尽快到达目标位姿,函数设计如下所示:其中,其中表示此次动作的位移量;drotate=θ表示此次动作的旋转角度;是常数,当智能体运动过程中不作为时给予一定的惩罚;

16、总奖励函数如下:其中,r1为与目标的直线距离奖惩,r2为与目标的角度距离奖惩、r3为位置状态的奖惩,i=1,2,3,分别表示与目标的直线距离奖惩、与目标的角度距离奖惩、位置状态的奖惩的系数。

17、优选的,所述步骤4中,算法与环境交互过程中产生的经验是一个对的向量,由当前的状态、动作、奖励、以及下一时刻的状态组成。

18、本专利技术的有益效果为:结合改进的深度强化学习的复位规划方法不仅能够在离线训练中规划出合适的复位轨迹,还可以在术中患侧初始位置发生变化时快速适应并规划出合适的复位轨迹,提高了在实际应用中的灵活性和适应性;所述方法通过先验知识来引导算法策略网络的输出动作,使算法在规划复位路径时更加注重骨块位置移动与姿态调整之间的关系,避免了在复位过程中频繁调整骨块的姿态,减少了对软组织造成不必要损伤的风险,提高了实际应用的安全性。

本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,所述步骤3中,与目标的直线距离奖惩包括此时骨块所处位置距离目标位置较本回合中距离目标的最小距离是否有更靠近,如果没有更靠近,则给予惩罚。

3.如权利要求2所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,与目标的直线距离奖惩函数是为了让断裂骨块接近目标位置而设定,奖励函数如下:在智能体执行移动动作前后,分别计算当前骨块与目标位置之间的欧式距离并根据获取该回合的目标距离最小值,然后按获取第一部分的奖励,该部分奖励鼓励智能体靠近目标位置,当目标距离缩小时,给予正向的奖励,反之则给予负向的惩罚。

4.如权利要求1或2所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,所述步骤3中,与目标角度距离奖惩包括此时骨块姿态距离目标姿态相差角度相较上一时刻的角度距离是否也有减小,如果没有减小,则给予惩罚。

5.如权利要求4所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,与目标的角度距离奖惩函数为了协助断裂骨块完成姿态的调整,由于状态空间中采用四元数表示骨块姿态,因此可以利用四元数的角距离公式判断姿态校正情况从而对奖励进行设置,角距离计算公式如下所示:其中<pt,pend>表示时间步长t时刻的姿态pt与目标姿态pend的点积,该部分奖励定义如下:在智能体执行动作前后,分别计算骨块姿态与目标姿态之间的角距离,若角度减小则给予奖励,反之则给予惩罚。

6.如权利要求1或2所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,所述步骤3中,位置状态的奖惩包括用碰撞检测算法检测骨块位置,若发生碰撞则给予惩罚;当骨块位姿与目标位姿一致时,给予奖励。

7.如权利要求6所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,位置状态的奖惩函数根据骨块所处位置的环境反馈进行奖惩的设计,当骨块所处状态超过边界或者发生碰撞则给予负向的惩罚,当骨块达到目标位置给予正向的奖励,具体奖惩函数如下:其中是常数,通过设置值来调整发生碰撞或者超出边界时的奖惩的力度。

8.如权利要求1或2所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,所述步骤3中,动作的代价惩罚包括算法在执性动作时,按照位移量和角度偏移量设置惩罚值,其目的是避免算法进行无意义的探索,帮助算法收敛。

9.如权利要求8所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,动作的代价惩罚函数根据动作的移动量和旋转量给予负向的惩罚,其目的是促使智能体尽快到达目标位姿,函数设计如下所示:其中,其中表示此次动作的位移量;Drotate=θ表示此次动作的旋转角度;是常数,当智能体运动过程中不作为时给予一定的惩罚;

10.如权利要求1或2所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,所述步骤4中,算法与环境交互过程中产生的经验是一个对的向量,由当前的状态、动作、奖励、以及下一时刻的状态组成。

...

【技术特征摘要】

1.一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,所述步骤3中,与目标的直线距离奖惩包括此时骨块所处位置距离目标位置较本回合中距离目标的最小距离是否有更靠近,如果没有更靠近,则给予惩罚。

3.如权利要求2所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,与目标的直线距离奖惩函数是为了让断裂骨块接近目标位置而设定,奖励函数如下:在智能体执行移动动作前后,分别计算当前骨块与目标位置之间的欧式距离并根据获取该回合的目标距离最小值,然后按获取第一部分的奖励,该部分奖励鼓励智能体靠近目标位置,当目标距离缩小时,给予正向的奖励,反之则给予负向的惩罚。

4.如权利要求1或2所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,所述步骤3中,与目标角度距离奖惩包括此时骨块姿态距离目标姿态相差角度相较上一时刻的角度距离是否也有减小,如果没有减小,则给予惩罚。

5.如权利要求4所述的一种基于深度强化学习的骨盆骨折复位路径规划方法,其特征在于,与目标的角度距离奖惩函数为了协助断裂骨块完成姿态的调整,由于状态空间中采用四元数表示骨块姿态,因此可以利用四元数的角距离公式判断姿态校正情况从而对奖励进行设置,角距离计算公式如下所示:其中<pt,pend>表示时间步长t时刻的姿态pt与目标姿态pend的点积,该部分奖励定义如下:在智能体执行动作前后,分别计算骨块姿态与目标姿态之...

【专利技术属性】
技术研发人员:刘鹏昀蔡世波王倩鑫
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1