动态视觉驱动的大模型无感交互分割方法技术

技术编号：40553057 阅读：9 留言：0更新日期：2024-03-05 19:12

本发明专利技术公开了一种动态视觉驱动的大模型无感交互分割方法，具体如下：引入动态视觉驱动分割技术，在医用领域利用医生动态视觉引导实时无感交互分割；初始化医学图像分割大模型并加载相关参数；使用眼动仪实时收集用户在图像上的视觉运动数据并将该图像输入图像编码器编码为高维特征；采用视觉运动数据过滤器，过滤噪声并将视觉运动数据分类为扫视行为数据和凝视行为数据；根据用户的视觉运动行为模式，智能选择将扫视行为数据或凝视行为数据作为提示信息用于分割；分割结果与原始图像叠加并可视化给用户提供反馈。本发明专利技术在临床上为医生提供更灵活、智能的交互方式，使整个交互分割过程更符合医生个性化的需求，提高了医生的工作效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及动态视觉驱动的大模型无感交互分割方法，主要涉及医学图像分割大模型和眼动仪的合理结合，能广泛应用于计算机辅助诊断和治疗应用中，如内窥镜手术、超声检查、临床诊断等，属于医学图像处理。

技术介绍

1、医学图像通常具有复杂的结构、多模态信息和各种病理变化，传统的自动分割算法在处理这些复杂情境时可能受限，而交互式分割通过借助医生的经验和直觉，能够更好地适应不同的医学图像特征。医学图像交互式分割充分利用了医生的专业知识。医生能够直观地识别图像中的特定结构、病变区域，通过实时交互，将他们的知识融入到分割过程中，提高了分割结果的可信度。与传统批处理的自动分割方法相比，交互式分割提供了实时反馈的机会。医生可以在分割过程中观察结果，并及时调整参数或提供反馈，以引导算法更准确地执行分割任务。医学图像交互式分割的兴起为医学影像处理领域带来了新的可能性，架起了医生和计算机视觉技术之间的桥梁，为更智能、更准确的医学图像分析打开了崭新的局面。

2、随着各种交互方法的探索，如边界框、涂鸦和点击，医学图像交互式分割领域取得了重大进展。在这些技术中，绘制边界框因其方便而被广泛采用。然而，在实践中，放射科医生经常发现自己需要对分割结果进行进一步的修正，这既耗时又可能影响准确性。为了解决这个问题，人们开始寻求更实用的方法，特别是交互点击或涂鸦。这些方法允许放射科医生反复标记错误的区域，从而改善分割结果。与绘制涂鸦相比，交互点击更受欢迎，因为它们给放射科医生带来的负担更少，不需要拖放过程。然而，最近的研究表明，视觉交互作为一种革命性的交互方法脱

3、然而，目前传统的交互分割模型的训练通常要首先采集大量交互数据，训练特定的分割网络，由于医学图像包含各种模态如ct，mri，超声图像以及病理图像，而且分割种类多样，导致构建一个能够视觉交互分割各种医学图像的分割模型成本极其昂贵。在当前人工智能处于大模型的背景下，分割大模型也逐渐应用于各个领域中。自从计算机视觉分割大模型sam发布以来，基于sam的二次应用及衍生项目越来越多，将其应用于各种任务，比如图像修复、图像编辑、目标检测、图像标注、视频跟踪、3d检测、医学图像分割等。因此，基于以上背景，将视觉运动作为一种交互方式与大模型结合构建动态视觉驱动的大模型无感交互分割方法，实现了医生无需主动交互的自然分割，减少了专业人士的时间成本，从而实现了真正意义上的智能诊断。

技术实现思路

1、专利技术目的：本专利技术的目的旨在提供一种动态视觉驱动的大模型无感交互分割方法，通过利用眼动追踪技术，实现了放射科医生与分割之间的无感交互。这意味着医生无需繁琐的手动标记或设备操作，而是通过自然的视觉运动行为进行交互，降低使用门槛，提高用户体验。方法的设计结合医生的专业知识和视觉引导，使得分割过程更加个性化。通过实时捕捉医生的视觉运动凝视或扫视行为，网络模型能够根据医生的关注点，自适应地调整分割策略，提高分割结果的准确性。利用大型神经网络模型，能够适应不同的图像特性，在医学图像分割任务中取得更为精确的结果。此外，实时显示分割结果，医生可以即时观察到分割效果，并在需要时调整视线以优化结果。这种实时的反馈机制有助于医生更主动地参与到图像分割的过程中，提高整体的效率。

2、为实现上述目的，本专利技术提供一种动态视觉驱动的大模型无感交互分割方法，包括如下步骤：

3、s1：引入动态视觉驱动分割技术，在医用领域利用医生动态视觉引导实时无感交互分割；

4、s2：初始化医学图像分割大模型并加载相关参数；

5、s3：使用眼动仪实时收集用户在图像上的视觉运动数据并将该图像输入图像编码器编码为图像高维特征；

6、s4：将步骤s3中收集到的原始视觉运动数据通过视觉运动数据过滤器，能够过滤噪声并将视觉运动数据分类为扫视行为数据和凝视行为数据；

7、s5：根据步骤s3中的用户的视觉运动行为模式，智能选择将扫视行为数据或凝视行为数据作为提示信息用于分割；

8、s6：将步骤s4、s5中筛选好的视觉运动信息作为提示信息输入医学图像分割大模型，模型中使用提示信息编码器对其进行编码为视觉感知高维特征；

9、s7：将步骤s3中原始图像高维特征与步骤s6中编码后的视觉感知高维特征进行融合操作，并输入最终的解码器进行分割；

10、s8：将步骤s7中解码得到的分割结果与原始图像叠加并可视化给用户提供反馈，用户根据当前分割结果调整视线进行下次交互从而优化分割结果。

11、进一步地，所述步骤s1中将视觉运动引入交互式分割，眼动仪的应用能够追踪和记录用户的视觉运动行为，无需用户采取手动控制的方式。在临床医学领域，传统的主动交互方式，如点击和画框，需要用户不断重复交互，而视觉交互则能够在更自然的条件下获取用户的关注点。通过简化整个交互流程，显著降低了用户的认知负担，使得交互过程更加直观和易用。用户只需通过自然的视觉上的扫视或凝视行为，眼动仪实时收集用户的视觉运动数据，便能完成图像交互分割任务，而无需进行主动的、繁琐的操作步骤。这种临床医用的交互设计不仅提高了操作的便捷性，同时也为医生提供了更加舒适和高效的图像分析工具。

12、进一步地，所述步骤s2中进行神经网络大模型的初始化，并加载先前经过训练得到的参数，目的在于确保在处理医学图像时能够充分利用已学到的特征和知识。

13、进一步地，所述步骤s3中通过调用眼动仪进行实时视觉运动数据的采集，实现了对用户对当前医学图像感兴趣区域的动态反馈。这一交互机制通过眼动仪对视觉运动数据的实时采集，能够捕捉到用户的注意焦点和关注点，为后续的医学图像分割提供了有力的引导。充分利用医学分割大模型的优势，模型包含图像编码器和提示信息编码器的双编码器架构，两个编码器具有类似结构，由多个vision transformer模块构成。一旦用户选择了当前图像，图像编码器即对该图像进行编码，首先将整个图像划分为固定相同大小的块，接着每个图像块通过线性映射层被映射为一个高维的嵌入向量，在这些嵌入向量序列中引入位置编码以表示每个图像块的相对位置，最后通过多头自注意力机制和多层感知机层提取图像高维特征，以全面把握图像的关键信息。

14、进一步地，所述步骤s4中将收集到的视觉运动数据经过专门设计的过滤器进行处理，以过滤掉可能的噪声，并将视觉运动行为分类为扫视和凝视，从而更准确地捕捉用户的视觉意图。该过程包含一系列详细步骤：映射视觉注视坐标、构建欧式距离矩阵、噪声滤除、确定伪扫视点、根据伪扫视点分类扫视行为和凝视行为。首先，对采集到的视觉运动数据进行处理。这些视觉运动数据是时序数据，采集自专业放射科医生，其中视觉注视屏幕像素点被映射到医学图像上的坐标。在处理过程中，首先通过计算所有坐标点两两之间的欧氏距离构建欧氏距离矩阵。通过当前距离矩阵，计算出平均距离。然后遍历所有坐标点并统计与当前本文档来自技高网...

【技术保护点】

1.动态视觉驱动的大模型无感交互分割方法，其特征在于，实现视觉交互分割包括以下步骤：

2.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法，其特征在于：所述步骤S1中，在临床中的实时交互分割过程中引入全新的视觉无感交互方式，具体实施为在用户屏幕下方安装眼动仪，无需主动交互，在用户阅读医学图像过程中眼动仪实时收集视觉运动数据，采用动态视觉引导医学图像分割大模型进行分割。

3.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法，其特征在于：所述步骤S3中，用户可自行选择待分割医学图像模态类型，医学图像分割大模型包含图像编码器和提示信息编码器，用户选择图像后，图像编码器会对当前图像进行编码，得到图像高维特征，并使用眼动仪收集用户在图像上的实时视觉运动数据。

4.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法，其特征在于：所述步骤S4中，采用视觉运动数据过滤器对收集到的原始视觉运动数据进行处理，以滤除噪声并将其分类为扫视行为数据和凝视行为数据，视觉运动数据过滤器工作具体步骤如下：映射视觉注视坐标、构建欧式距离矩阵、噪声滤除、确定伪扫视

5.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法，其特征在于：所述步骤S5中的根据用户视觉运动行为模式选择将扫视行为或凝视行为作为合适的提示信息用于分割，用户进行一次完整交互的视觉运动行为模式包括凝视与扫视，对于凝视行为通常发生于形状较小分割目标，而扫视通常为形状较大的分割目标，为了更精准地识别用户的扫视行为，预先设置了扫视行为阈值，默认为5，该阈值为凝视行为发生次数，评估扫视行为的发生次数，如果扫视行为大于预设的阈值，将整个交互行为定义为扫视，此时，所有扫视点将被用于后续的分割操作，以确保充分利用用户的全局视觉引导信息，反之为凝视行为，所有凝视点被用于后续分割操作。

6.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法，其特征在于：所述步骤S6中的医学图像分割大模型将视觉运动数据作为提示信息输入网络，模型通过独立的提示信息编码器对其编码得到视觉感知高维特征，为后续解码操作提供了丰富的信息，提示信息编码器与图像编码器结构类似，这种双编码的设计使模型能够更全面地捕捉原始图像和视觉运动提示信息的关键特征，从而增强了分割模型的性能和精度。

7.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法，其特征在于：所述步骤S3和S6中的图像高维特征与视觉感知高维特征对其进行融合操作，首先将两个特征在通道维度上进行拼接，然后经过一系列的卷积操作进行通道调整，并使用残差连接降低模型复杂度，将融合后的特征输入解码器，对融合特征解码最后输出分割结果。

8.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法，其特征在于：所述步骤S8具体步骤为：首先将分割结果与原始图像叠加并可视化给用户提供反馈，用户根据当前分割结果调整视线进行下次交互，根据新的交互收集到的视觉运动数据在上次分割结果上进行优化，分割未分割出的区域或调整错分的区域，该过程可不断迭代直到分割结果满足用户需求。

...

【技术特征摘要】

1.动态视觉驱动的大模型无感交互分割方法，其特征在于，实现视觉交互分割包括以下步骤：

2.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法，其特征在于：所述步骤s1中，在临床中的实时交互分割过程中引入全新的视觉无感交互方式，具体实施为在用户屏幕下方安装眼动仪，无需主动交互，在用户阅读医学图像过程中眼动仪实时收集视觉运动数据，采用动态视觉引导医学图像分割大模型进行分割。

3.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法，其特征在于：所述步骤s3中，用户可自行选择待分割医学图像模态类型，医学图像分割大模型包含图像编码器和提示信息编码器，用户选择图像后，图像编码器会对当前图像进行编码，得到图像高维特征，并使用眼动仪收集用户在图像上的实时视觉运动数据。

4.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法，其特征在于：所述步骤s4中，采用视觉运动数据过滤器对收集到的原始视觉运动数据进行处理，以滤除噪声并将其分类为扫视行为数据和凝视行为数据，视觉运动数据过滤器工作具体步骤如下：映射视觉注视坐标、构建欧式距离矩阵、噪声滤除、确定伪扫视点、根据伪扫视点分类扫视行为和凝视行为；首先，对采集到的数据进行处理，这些视觉运动数据是时序数据，其中视觉注视屏幕像素点被映射到医学图像上的坐标，在处理过程中，首先通过计算所有坐标点两两之间的欧氏距离构建欧氏距离矩阵，通过当前距离矩阵，计算出平均距离，然后遍历所有坐标点并统计与当前坐标点距离大于平均距离的其他坐标点的个数，个数多于所有注视点数量1/5的坐标点被视为噪声并被过滤掉，从而提高数据的准确性和可靠性，由于视觉运动数据是时序数据，在视觉运动数据中，若每个坐标点与前一个点的欧氏距离大于平均距离，则标记该点为伪扫视点，表示发生了一次视线移动行为，为了将伪扫视点分类为扫视行为或凝视行为，通过设置凝视半径，凝视半径默认为平均距离，计算每个伪扫视点凝视半径内是否存在足够数量的坐标点，坐标点数量阈值默认为所有视觉注视坐标点的1/5，以确定是...

【专利技术属性】
技术研发人员：葛荣骏，王冲，何宇霆，孙未雅，张道强，陈阳，刘澄玉，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人