一种基于无监督深度学习的多模态手术轨迹快速分割方法技术

技术编号:20045625 阅读:130 留言:0更新日期:2019-01-09 04:23
本发明专利技术公开了一种基于无监督深度学习的多模态手术轨迹快速分割方法,属于机器人辅助微创手术领域。该方法首先针对某机器人辅助微创手术过程,机器人系统采集手术运动学数据和视频数据;然后利用小波变换对运动学数据中的短轨迹噪声和数据抖动进行平滑滤波处理,同时利用DCED‑Net网络结构对视频数据进行特征提取。将平滑滤波处理后的运动学数据和特征提取后的视频数据图像,送入改进的TSC模型中进行聚类,得到n个手术示范的轨迹预分割结果;最后利用PMDD合并算法对每个轨迹预分割结果进行相似合并,合并结果为最终的轨迹分割结果。本发明专利技术为过分割等问题提出了优化方案和无监督深度学习,加快了视频特征的提取速度,提高了特征质量,使聚类结果更加精确。

【技术实现步骤摘要】
一种基于无监督深度学习的多模态手术轨迹快速分割方法
本专利技术属于机器人辅助微创手术(RMIS)领域,涉及图像特征提取,深度学习聚类,相似性评估等,具体为一种基于无监督深度学习的多模态手术轨迹快速分割方法。
技术介绍
在机器人辅助微创手术(RMIS)过程中,手术轨迹由一系列的机器人运动学数据和视频数据来记录。通过对这些手术轨迹进行分割,将手术过程分解成若干个复杂度低的子轨迹(子动作),可用于医生技能评估和示范学习等。更重要的是,机器人通过学习这些子轨迹,可实现简单任务的自主操作,从而推进机器人手术的自动化。然而,由于手术环境的复杂性和医生的技能水平的差异性,导致即使是医生完成相同的手术动作,其手术轨迹也会在时间和空间上表现出显著的不同。因此,在复杂多变的轨迹数据中快速准确地进行手术轨迹分割是一个非常具有挑战性的任务。现有的轨迹分割的解决方案,通常是将该问题转化为轨迹段的分割聚类问题,具体的方法可以分为有监督方法和无监督方法两大类。有监督方法出现较早,其主要思想是从人工标注中学习子轨迹段到预定义轨迹段的匹配关系。典型的有监督方法有文献1:Lin等,机器人辅助手术运动的检测和分割[J].计算机辅助手术.2006,11(5):220-230.该方法的主要问题是随着任务复杂度的增加,系统模型逐渐失去鲁棒性,使得错误概率增高。隐性马尔科夫模型法(HMMs)的提出可以帮助模型适应运动数据的多变性,但由于各种手术任务的HMM状态不同,该方法很难进行扩展,局限性大,如文献2:Reiley等.机器人微创手术的任务与子任务手术技能评估[C]国际医学影像计算和计算机辅助干预大会论文集,2009:435-442。以及文献3:Ahmidi等人使用了描述性曲线编码(DCC).提出了:基于字符串图案的描述的检测机器人手术中技巧和手势探测[C]国际医学影像计算和计算机辅助干预大会论文集,2013:26-33.这两个文章的优点是同时考虑了运动学数据和视频数据进行轨迹分割,但忽略了轨迹段间的上下文信息,导致分割精度降低,实用性差。以上有监督轨迹分割方法可以在一定程度上解决手术轨迹分割问题,却都存在一个无法规避的难题,必须预先进行人工标注,这一过程往往是十分耗时的,使得轨迹分割效率大大降低。近年来无监督方法逐步引起了研究者们的关注,如文献4:Sang等利用高斯混合模型(GMM)进行聚类的轨迹分割方法摆脱了人工标注的限制,提出了用于分割任务的机器人轨迹的自治框架[J]机器人自动化,2015,38(2):107-141.然而分割精度不高。文献5:Krishnan等,提出了基于转移状态聚类,无监督轨迹分割方法[C]机器人研究国际研讨会论文集2015.虽然为轨迹分割问题提出了新的解决方案,使得分割准确度得到了提升,但该方法只考虑了运动学数据,导致在复杂任务中的分割稳定性较差。随着机器学习技术的迅猛发展,如文献6:Murali等,基于深度学习的无监督轨迹分割方法[C]机器人和自动化国际会议,2016:4150-415,基于卷积神经网络(CNN)改进了该算法,利用一个无监督VGG神经网络提取视频数据特征,结合运动学数据进行轨迹分割,提升了分割准确度和效率。然而,现有的无监督轨迹分割方法仍存在诸多缺陷,首先,视频特征提取过慢是影响医疗轨迹分割的主要问题,如TSC-VGG,其视频特征提取时间占到总分割时间的95%以上,使无监督方法的效率大大降低;其次,提取的视频特征不显著。现有方法提取的视频特征质量差,在轨迹分割中甚至会起负面效果,导致分割稳定性也较差;最后,由于无监督轨迹分割方法本身特性,会导致结果存在过度分割的问题,即表示同一原子操作的分割段被分成了多个,出现了一些分割段“碎片”。
技术实现思路
为解决以上问题,本专利技术提出了一种基于无监督深度学习的多模态手术轨迹快速分割方法,首先将对视频数据进行DCED-Net特征提取,对运动学数据进行滤波去噪,而后将数据装入TSC非参混合模型进行聚类,最后对聚类结果做合并后处理。具体步骤如下:步骤一、针对某机器人辅助微创手术过程,机器人系统采集手术运动学数据和视频数据。运动学数据包括:机械手的位置、移动方向、角速度和转折位置等。视频数据是指一台手术的完整视频记录。步骤二、利用小波变换对运动学数据中的短轨迹噪声和数据抖动进行平滑滤波处理;步骤三、同时利用DCED-Net网络结构对视频数据进行特征提取。DCED-Net网络结构包括DenseBlock、传输层和上采样层;DenseBlock由若干个密集连接的卷积层组成,任何一层都直接与后续的所有层相连,主要对视频数据中的图像进行特征提取或特征重构;针对第ω层,该层接收到它之前所有层的输入表达式如下:xω=σω([x0,x1,x2,...,xω-1])其中[x0,x1,x2,...,xω-1]为卷积层[0,1,2,...,ω-1]所输出的特征图的集合,σ表示复合操作,包含批量标准化和激活函数等。传输层由卷积层和池化层组成,负责对卷积后的特征图进行特征压缩并降低特征图尺寸;上采样层则负责将压缩的图像进行图像重构和特征图的尺寸恢复。步骤四、将平滑滤波处理后的运动学数据和特征提取后的视频数据图像,送入改进的TSC模型中进行聚类,得到n个手术示范的轨迹预分割结果;具体步骤如下:步骤401、将平滑滤波处理后的运动学数据和特征提取后的视频数据图像组成手术示范集合;手术示范集合D包括n个不同的医生所作的同一个动作,元素为Di,i∈1,2,..,n;每个元素Di都是由相对应视频数据和运动学数据组成;步骤402、采用留一法分组,将手术示范集合D拆分成n组;针对n个手术示范,去除某手术示范Di,将剩余的n-1个示范作为一个分组;以此类推,共得到n个分组,每个分组中都缺少一个手术示范。步骤403、针对去除手术示范Di后的组,将该组中的各手术示范投入TSC模型进行数据拼接;数据拼接具体为:首先,将去除手术示范Di后的n-1手术示范进行横向拼接:使所有的运动学特征成为一个整体k(t);所有的视频特征成为一个整体v(t);而后,进行竖向拼接:将运动学特征和视频特征以帧对齐的方式进行拼接,得到一组新的扩展数据在数据拼接的过程中,用权重比值ψ表示运动学数据和视频数据所占的权重比。步骤404、将拼接后的扩展数据x(t),运动学数据k(t)和视频数据v(t)分别通过DPGMM进行聚类,得到三组聚类结果,合并成一个转移状态集合T;转移状态集合T由Tx,Tk和Tv组成;集合T中的各元素为转移点,在时间序列帧对齐。步骤405、针对转移状态集合T,按照时间序列依次读取每一帧,将每帧对应的三组转移点的值,根据真值表进行修正,得到转移点集合Tc。修正准则为:将Tx,Tk和Tv三组结果根据真值表进行修正,1代表该帧上有转移点,0代表没有,得到转移点的集合Tc;真值表如下:步骤406、沿时间序列以步长λ对转移点集合Tc进行遍历,将一个步长内存在的若干转移点中,只保留首个转移点,将其他重复的转移点合并移除。步骤407、将去冗余的转移点集合Tc在视频域进行DPGMM聚类,得到转移状态类集合Θ;转移状态类集合Θ中包括若干类元素,每个类元素中包含若干个转移点,每一个转移点分别属于一个手术示范;多个转移点可以属于同一个手术示范本文档来自技高网
...

【技术保护点】
1.一种基于无监督深度学习的多模态手术轨迹快速分割方法,其特征在于,具体步骤如下:步骤一、针对某机器人辅助微创手术过程,机器人系统采集手术运动学数据和视频数据;步骤二、利用小波变换对运动学数据中的短轨迹噪声和数据抖动进行平滑滤波处理;步骤三、同时利用DCED‑Net网络结构对视频数据进行特征提取;DCED‑Net网络结构包括Dense Block、传输层和上采样层;步骤四、将平滑滤波处理后的运动学数据和特征提取后的视频数据图像,送入改进的TSC模型中进行聚类,得到n个手术示范的轨迹预分割结果;具体步骤如下:步骤401、将平滑滤波处理后的运动学数据和特征提取后的视频数据图像组成手术示范集合;手术示范集合D包括n个不同的医生所作的同一个动作,元素为Di,i∈1,2,..,n;每个元素Di都是由相对应视频数据和运动学数据组成;步骤402、采用留一法分组,将手术示范集合D拆分成n组;针对n个手术示范,去除某手术示范Di,将剩余的n‑1个示范作为一个分组;以此类推,共得到n个分组,每个分组中都缺少一个手术示范;步骤403、针对去除手术示范Di后的组,将该组中的各手术示范投入TSC模型进行数据拼接;步骤404、将拼接后的扩展数据x(t),运动学数据k(t)和视频数据v(t)分别通过DPGMM进行聚类,得到三组聚类结果,合并成一个转移状态集合T;转移状态集合T由Tx,Tk和Tv组成;集合T中的各元素为转移点,在时间序列帧对齐;步骤405、针对转移状态集合T,按照时间序列依次读取每一帧,将每帧对应的三组转移点的值,根据真值表进行修正,得到转移点集合Tc;真值表如下:...

【技术特征摘要】
1.一种基于无监督深度学习的多模态手术轨迹快速分割方法,其特征在于,具体步骤如下:步骤一、针对某机器人辅助微创手术过程,机器人系统采集手术运动学数据和视频数据;步骤二、利用小波变换对运动学数据中的短轨迹噪声和数据抖动进行平滑滤波处理;步骤三、同时利用DCED-Net网络结构对视频数据进行特征提取;DCED-Net网络结构包括DenseBlock、传输层和上采样层;步骤四、将平滑滤波处理后的运动学数据和特征提取后的视频数据图像,送入改进的TSC模型中进行聚类,得到n个手术示范的轨迹预分割结果;具体步骤如下:步骤401、将平滑滤波处理后的运动学数据和特征提取后的视频数据图像组成手术示范集合;手术示范集合D包括n个不同的医生所作的同一个动作,元素为Di,i∈1,2,..,n;每个元素Di都是由相对应视频数据和运动学数据组成;步骤402、采用留一法分组,将手术示范集合D拆分成n组;针对n个手术示范,去除某手术示范Di,将剩余的n-1个示范作为一个分组;以此类推,共得到n个分组,每个分组中都缺少一个手术示范;步骤403、针对去除手术示范Di后的组,将该组中的各手术示范投入TSC模型进行数据拼接;步骤404、将拼接后的扩展数据x(t),运动学数据k(t)和视频数据v(t)分别通过DPGMM进行聚类,得到三组聚类结果,合并成一个转移状态集合T;转移状态集合T由Tx,Tk和Tv组成;集合T中的各元素为转移点,在时间序列帧对齐;步骤405、针对转移状态集合T,按照时间序列依次读取每一帧,将每帧对应的三组转移点的值,根据真值表进行修正,得到转移点集合Tc;真值表如下:步骤406、沿时间序列以步长λ对转移点集合Tc进行遍历,将一个步长内存在的若干转移点中,只保留首个转移点,将其他重复的转移点合并移除;步骤407、将去冗余的转移点集合Tc在视频域进行DPGMM聚类,得到转移状态类集合Θ;步骤408、基于简单多数原则对转移状态类集合Θ进行类修剪,得到修剪后的类集合Θ*;修剪规则如下:针对转移状态类集合Θ中的某个类元素Θj,j∈1,2,..,m;判断该类Θj中的各个转移点所属于的手术示范的个数是否大于等于(n-1)/2,如果是,则将该类元素Θj保留,否则舍弃;步骤409、将修剪后类集合Θ*在运动学域进行DPGMM再次聚类,得到聚类结果C;步骤410、利用聚类结果C对去冗余的转移点集合Tc进行修剪;修剪规则如下:判断转移点集合Tc中的转移点P1是否属于聚类结果C中的任何一个类,如果是,则表明聚类结果C中有P1这个转移点,则保留转移点集合Tc中的转移点P1;否则,转移点P1不属于聚类结果C中的任何一个类,则修剪掉转移点集合Tc中的转移点P1;聚类结果C中某个类的点一定包含在转移点集合Tc中,转移点集合Tc中的点不一定包含在聚类结果C中;步骤411、将修剪后的转移点集合Tc进行拆分,得到拆分集合Φi';拆分集合Φi'={Φ1,Φ2,…Φi-1,Φi+1,…Φn};拆分集合Φi'中的各个元素与去除了手术示范Di后的剩余n-1个手术示范,分别一一对应;步骤412、同理,将其余包含手术示范Di的n-1个分组,得到拆分集合Φ1',Φ2',…Φi-1',Φi+1',…Φn';Φ1'={Φ2,Φ3,…Φi,…Φn};Φ2'={Φ1,Φ3,…Φi,…Φn};…Φi-1'={Φ1,Φ2,…Φi-2,…Φi,…Φn};Φi+1'={Φ1,Φ2,…Φi,…Φi+2,…Φn};…Φn'={Φ1,Φ2,…Φi,…Φn-1};步骤413、针对某个手术示范Di,将包含Di的n-1个拆分集合中的元素Φi进行DP-GMM聚类,得到最终的转移状态集合Φi*;步骤414、依据Φi*中的转移点,对手术示范Di进行轨迹分割,同理得到n个手术示范的轨迹预分割结果;步骤五、利用PMDD合并算法对每个轨迹预分割结果进行相似合并,合并结果为最终的轨迹分割结果。2.如权利要求1所述的一种基于无监督深度学习的多模态手术轨迹快速分割方法,其特征在于,步骤一中所述的运动学数据包括:机械手的位置、移动方向、角速度和转折位置;视频数据是指一台手术的完整视频记录。3.如权利要求1所述的一种基于无监督深度学习的多模...

【专利技术属性】
技术研发人员:邵振洲渠瀛谢劼欣赵红发施智平关永谈金东李贺
申请(专利权)人:首都师范大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1