一种基于Flowformer和门控注意力的牙齿CBCT图像分割网络制造技术

技术编号：40261591 阅读：10 留言：0更新日期：2024-02-02 22:51

本发明专利技术公开了一种基于Flowformer和门控注意力的牙齿CBCT图像分割网络，涉及计算机视觉领域的图像处理技术，基于U型全卷积网络架构，在此基础上加入了Flowformer和门控注意力模块，改善了传统注意力计算方法的二次计算复杂度，另一方面，在跳跃连接上加入了门控注意力模块，将包含全局信息的特征图作为门控信号，去筛选低维特征中与分割目标前景相关的部分，在模型的解码器部分也融合了多个解码器的输出作为最终的网络输出结果，充分利用了不同尺度的语义特征，从而使得网络对牙齿CBCT图像中一些细小、不易察觉的牙齿组织有更好的分割效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域的图像处理技术，具体而言，涉及一种基于flowformer和门控注意力的牙齿cbct图像分割网络。

技术介绍

1、医学图像的分割是进行其他医学图像处理的基础，在经过分割和建模后，医生可以对患处进行细致的分析，从而确定治疗方案。但目前在cbct上分割牙齿是一项具有挑战性且费时的工作。在cbct上，牙骨质、牙本质和骨之间的灰度值差异较小，且存在一定程度的伪影，因此单纯通过阈值分割的方法实现cbct图像上牙齿的全自动分割是不可靠的。目前通常需要医生在阈值分割的基础上花费大量时间进行手工分割，不仅时间成本高，分割的结果也具有较大的主观性，在实际应用场景中存在一定的限制，并且牙齿的cbct图像中会存在一些细小、不易察觉的牙齿组织，现有的分割网络并不能很好地处理这一部分牙齿组织的分割。因此如何借助深度学习的方法，高效、正确地从牙齿的cbct图像中分割出医生需要的部分，成为了一个需要解决的问题。

技术实现思路

1、为了改善上述现有方法中存在的问题，本专利技术提出一种基于flowformer和门控注意力的牙齿cbct图像分割网络，包括以下步骤：

2、s1、构建训练数据集：先借助mimics软件在牙齿的cbct或micro-ct数据集上标出牙齿组织所在的位置，然后将标注了牙齿组织的cbct或micro-ct图片转化为标签图，标签图上属于各个类别物体的像素被赋予相同的编号，代表牙齿组织的像素点的值赋值为1，代表背景的像素点的值赋值为0，标签图与相应的原图构成一组训练样本，送入网络中训练；

3、s2、构建训练框架：训练框架包括编码器、解码器、跳跃连接三部分，编码器部分包括卷积层、下采样、flowformer层，解码器部分包括卷积层、上采样层、分割头，跳跃连接包括门控注意力模块，一次迭代的过程如下：

4、s2-1、先将输入的训练图片的分辨率转化为224×224的大小，然后进行简单的数据增强，比如图片翻转、旋转；

5、s2-2、将经过数据增强的图片输入编码器，经过三层卷积和下采样操作，降低图片的分辨率大小，同时三层卷积的输出用作跳跃连接上的门控注意力模块的输入特征图x；

6、s2-3、将经过下采样的特征图经过一层嵌入层展平变成一维的特征向量输入flowformer模块进行注意力的计算；

7、s2-4、将经过注意力计算的一维特征向量重新重塑（reshape）变成二维的特征图，一方面用作解码器部分的输入，进行卷积和上采样操作，另一方面用作跳跃连接上的门控注意力模块的门控信号g；

8、s2-5、跳跃连接上的门控注意力模块在收到门控信号g之后，与输入特征图x进行注意力的计算，将计算的结果输入到解码器；

9、s2-6、解码器部分接收来自跳跃连接的特征图，与上采样得到的特征图在通道维度上进行拼接，然后再进行卷积与上采样操作，重复上述操作直到特征图的分辨率恢复为原图大小；

10、s2-7、网络最终的结果由多个解码器的输出在通道维度上进行拼接，然后经过一个分割头得到，并将输出的结果与标签图进行损失函数的计算，根据计算的结果进行反向传播，至此一轮迭代完成。

11、进一步地，步骤s2-2中经过每层卷积和下采样后传给门控注意力模块的输入特征图x的维度分别为(64, 112, 112)、(128, 56, 56)、(256, 28, 28)，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高。

12、进一步地，步骤s2-3中，在输入嵌入层之前会再经过一次卷积和下采样操作，将特征图的维度变为(512, 14, 14)，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高；经过嵌入层后输入给flowformer的特征向量的维度为(196, 768)，其中第一个维度是块（patch）数，第二个维度是隐层特征（hiddenfeature）数；由特征向量得到的查询向量q、键向量k、值向量v的维度为(12, 196, 64)，其中第一个维度是多头注意力的头数，第二个维度是块数，第三个维度是隐层特征数，根据固定资源引发竞争的思想，将注意力从值向量v聚合到注意力计算结果向量（result，r）的网络信息流，将结果向量看作信息的汇聚处（sink），它只有用于接收信息的传入信息流，将值向量v看作信息源（source)，它只有向结果向量提供信息的输出流；利用查询向量q、键向量k、值向量v进行注意力计算的公式如下：

13、；

14、；

15、；

16、；

17、；

18、其中是非线性且非负的映射，m是k的维度，n是q的维度，是第j个维度上的k值，是第i个维度上的q值，是第i个结果向量输入流量，oj是第j个信息源的输出流量，表示信息源的输出流量固定为1后各个结果向量获得的信息，体现了每个结果向量从聚合的信息中分到的信息大小，表示流量的总和固定后由各个信息源提供的信息，体现了各个信息源的重要性，是逐元素乘法，代表输入流量守恒后重新计算权重的信息源，i表示的总和，代表聚合的信息源的信息，是给每个结果向量重新分配了输入流后的计算结果，即最后求得的注意力权重，softmax是归一化指数函数，sigmoid是神经网络中常用的激活函数。

19、进一步地，步骤s2-4中，经过注意力计算之后特征图的维度会重新重塑为(512,14, 14)，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高，用于之后的解码器部分的计算和门控信号g。

20、进一步地，步骤s2-5中，门控注意力模块会根据门控信号g计算一个系数，用于表示输入特征图x中每个像素点的注意力权重，得到的系数与输入特征图x相乘后得到门控注意力模块的输出结果，系数的计算公式如下：

21、；

22、其中是逐元素乘法，是非线性的激活函数，是归一化函数，将最后的结果限制在[0, 1]的范围内，，，，，是与x相乘的参数，由网络学习得到，是与g相乘的参数，由网络学习得到，是输入特征图的通道数，是门控信号的通道数，是输入特征图与门控信号逐元素相乘后得到的特征图的通道数，是1*1*1的卷积操作，与是两个偏置项。

23、进一步地，步骤s2-6中，解码器部分经过三次卷积和上采样操作后，特征图的维度恢复为(16, 224, 224)，前三次卷积和上采样操作得到的特征图维度分别为(256, 28,28)、(126, 56, 56)、(64, 112, 112)，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高。

24、进一步地，步骤s2-7中，解码器部分前三次卷积与上采样操作的特征图会先经过卷积和双线性插值变为(16, 224, 224)的大小，然后与最后的(16, 224, 224)大小的特征图在通道维度上进行拼接，其中第一个维度代表特征图的通本文档来自技高网...

【技术保护点】

1.一种基于Flowformer和门控注意力的牙齿CBCT图像分割网络，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Flowformer和门控注意力的牙齿CBCT图像分割网络，其特征在于，步骤S2-2中经过每层卷积和下采样后传给门控注意力模块的输入特征图x的维度分别为(64, 112, 112)、(128, 56, 56)、(256, 28, 28)，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高。

3.根据权利要求1所述的基于Flowformer和门控注意力的牙齿CBCT图像分割网络，其特征在于，步骤S2-3中，在输入嵌入层之前会再经过一次卷积和下采样操作，将特征图的维度变为(512, 14, 14)，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高；经过嵌入层后输入给Flowformer的特征向量的维度为(196, 768)，其中第一个维度是块（patch）数，第二个维度是隐层特征（hidden feature）数；由特征向量得到的查询向量Q、键向量K、值向量V的维度

4.根据权利要求1所述的基于Flowformer和门控注意力的牙齿CBCT图像分割网络，其特征在于，步骤S2-4中，经过注意力计算之后特征图的维度会重新重塑为(512, 14, 14)，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高，用于之后的解码器部分的计算和门控信号g。

5.根据权利要求1所述的基于Flowformer和门控注意力的牙齿CBCT图像分割网络，其特征在于，步骤S2-5中，门控注意力模块会根据门控信号g计算一个系数，用于表示输入特征图x中每个像素点的注意力权重，得到的系数与输入特征图x相乘后得到门控注意力模块的输出结果，系数的计算公式如下：；

6.根据权利要求1所述的基于Flowformer和门控注意力的牙齿CBCT图像分割网络，其特征在于，步骤S2-6中，解码器部分经过三次卷积和上采样操作后，特征图的维度恢复为(16, 224, 224)，前三次卷积和上采样操作得到的特征图维度分别为(256, 28, 28)、(126, 56, 56)、(64, 112, 112)，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高。

7.根据权利要求1所述的基于Flowformer和门控注意力的牙齿CBCT图像分割网络，其特征在于，步骤S2-7中，解码器部分前三次卷积与上采样操作的特征图会先经过卷积和双线性插值变为(16, 224, 224)的大小，然后与最后的(16, 224, 224)大小的特征图在通道维度上进行拼接，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高，最后经过一个分割头得到网络最终的输出结果，输出结果与标签图计算交叉熵损失与Dice损失，计算公式如下：

...

【技术特征摘要】

1.一种基于flowformer和门控注意力的牙齿cbct图像分割网络，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于flowformer和门控注意力的牙齿cbct图像分割网络，其特征在于，步骤s2-2中经过每层卷积和下采样后传给门控注意力模块的输入特征图x的维度分别为(64, 112, 112)、(128, 56, 56)、(256, 28, 28)，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高。

3.根据权利要求1所述的基于flowformer和门控注意力的牙齿cbct图像分割网络，其特征在于，步骤s2-3中，在输入嵌入层之前会再经过一次卷积和下采样操作，将特征图的维度变为(512, 14, 14)，其中第一个维度代表特征图的通道数，第二个维度代表特征图的宽，第三个维度代表特征图的高；经过嵌入层后输入给flowformer的特征向量的维度为(196, 768)，其中第一个维度是块（patch）数，第二个维度是隐层特征（hidden feature）数；由特征向量得到的查询向量q、键向量k、值向量v的维度为(12, 196, 64)，其中第一个维度是多头注意力的头数，第二个维度是块数，第三个维度是隐层特征数，根据固定资源引发竞争的思想，将注意力从值向量v聚合到注意力计算结果向量（result，r）的网络信息流，将结果向量看作信息的汇聚处（sink），它只有用于接收信息的传入信息流，将值向量v看作信息源（source)，它只有向结果向量提供信息的输出流；利用查询向量q、键向量k、值向量v进行注意力计算的公式如下：

4.根据权利要求1所述的基于flowformer和门控注意力...

【专利技术属性】
技术研发人员：曹旦华，蔡彪，易惊涛，
申请(专利权)人：感跃医疗科技成都有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人