基于3D-CMGAN网络的类造影视频生成方法技术

技术编号：40657822 阅读：4 留言：0更新日期：2024-03-18 18:49

本发明专利技术提供了一种基于3D‑CMGAN网络的类造影视频生成方法，包括如下步骤：采集超声视频数据和文本信息数据，将视频数据转换为AVI格式视频，同时文本信息数据进行特征工程；构建基于深度学习的3D‑CMGAN网络模型，包括视频编码器、文本编码器、生成网络、自注意力机制、判别网络和损失函数的设计；将术前视频数据和文本数据共同作为所述3D‑CMGAN网络模型的预训练数据；使用所述预训练数据对所述3D‑CMGAN网络模型进行预训练；使用迁移学习的方式结合术后不同评估时期的数据对不同评估时期的3D‑CMGAN网络模型进行迁移训练，同时调整3D‑CMGAN网络模型的超参数，得到用于不同评估时期的超声类造影视频生成模型，进而生成不同时期的类造影视频。使用该方法能够客观评估患者消融术后疗效。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于医学图像处理，具体涉及一种基于深度学习的3d-cmgan网络的类造影视频生成方法。

技术介绍

0、技术背景

1、超声检查有着无辐射、及时结果、移动方便、成本效益低和安全性高的优点，被普遍用于甲状腺、肝脏和乳腺部位的检查。对于成年人来说，超声检查对于甲状腺结节较为敏感，其检出率超过90％，乳腺结节的检出率可达80％到90％，而肝脏结节的检出率取决于结节的大小和性质，检出率在60％到90％不等。

2、超声造影检查具有无辐射、安全且能提供结节详细结构和血流的优点，造影检查可以帮助医师评估甲状腺结节的大小、形态、内部特征和血流情况；检测肝脏病变的位置、形态特征、血流情况和内部结构，评估肝脏的功能和异常；评估乳腺病变的性质、大小、边界和血流情况，对乳腺结节和肿块进行检测并定性。

3、现有评估甲状腺、肝脏和乳腺消融手术的疗效评估使用常规超声时，由于超声科医师的诊断水平不一，且常规超声对血流不敏感，使消融后疗效评估的精准度有限。但是，超声造影检查是使用造影剂作为声学增强剂，通过超声造影检查可以敏感地反应组织中血管和微血管区域，使用该方法对消融疗效评估是一种很好的手段。故目前会对接受消融治疗的患者进行术前和术后的超声造影检查及评估。但是超声造影为有创检查，造影剂在患者体内停留时间有限，且受操作者经验的依赖性较强，图像质量容易受到影响。综上所述，考虑到现阶段超声造影评估疗效存在的一些问题，所以，目前亟需一种能够客观评估患者消融术后疗效的评估方法。

技术实现思路</p>

1、基于上述背景，本专利技术提出了一种基于深度学习的3d-cmgan网络的类造影视频生成方法，具体采用如下技术方案：

2、一种基于3d-cmgan网络的类造影视频生成方法，包括如下步骤：

3、s1、采集接受消融手术患者dicom格式的术前b模视频，以及术前和术后若干评估时间点的结节造影视频、检查时的二维超声心动图和临床文本信息数据；

4、s2、使用无损转换的方式将dicom格式的术前b模视频和结节造影视频转换为高质量avi格式视频，同时提取患者的临床信息、心脏射血分数和心率特征信息，并对不同类型的特征信息进行特征工程；

5、s3、构建基于深度学习的3d-cmgan网络模型，包括视频编码器、文本编码器、生成网络、自注意力机制、判别网络和损失函数的设计；

6、s4、将所述dicom格式的术前b模视频和术前结节造影视频作为视频数据，并将结节造影视频的评估时期，以及特征工程后的临床信息、心脏射血分数和心率特征信息作为文本数据，共同作为所述3d-cmgan网络模型的预训练数据；

7、s5、使用所述预训练数据对所述3d-cmgan网络模型进行预训练；

8、s6、使用迁移学习的方式结合术后不同评估时期的数据对不同评估时期的3d-cmgan网络模型进行迁移训练，同时调整3d-cmgan网络模型的超参数，得到用于不同评估时期的超声类造影视频生成模型，进而生成不同时期的类造影视频。

9、进一步的，所述3d-cmgan网络模型中，视频编码器用于将常规b模视频数据通过卷积神经网络对视频特征进行提取，并将其映射至隐空间中进行表示；文本编码器用于通过独特编码、标准化、word2vec和归一化的方法，将患者的不同类型文本类信息映射至低维度的向量空间中，表示患者文本信息的语义特征，同时对文本低维信息进行升维，并使用舒尔积进行融合文本特征，再与隐空间中的视频特征进行融合；生成网络用于将视频输入数据进行逆变换，将在隐空间中融合后的视频与文本特征转化为生成的类造影视频功能；判别网络用于判断真实输入的造影视频数据和3d-cmgan网络生成的造影视频的相似程度，判别模型无法判断两者的真假时，则认为生成模型的输出为真，输出1，反之，则输出0，根据定义的损失函数对模型传播过程进行反向传播，在训练过程中更新模型参数。

10、进一步的，步骤s2中，使用python语言编写的pydicom和simpleitk科学数据库将所述dicom格式的术前b模视频和结节造影视频转换为高质量avi格式视频，并解析得到患者的临床信息、心脏射血分数和心率特征信息，所述临床信息包括患者的年龄、性别、体重、吸烟史、饮酒史、主诉和病史。

11、进一步的，步骤s2中，对不同类型的特征信息进行特征工程包括：

12、对性别、吸烟史、饮酒史和主诉的分类变量进行独热编码；

13、对年龄、体重、心脏射血分数和心率的连续型变量进行标准化去量纲处理；

14、对病史数据的文本类型变量使用word2vec技术嵌入到一个低维向量空间，并对低维向量空间特征进行数字化编码，转化为浮点数格式的数字型一维向量；

15、对待评估时间进行归一化处理。

16、进一步的，步骤s5和s6中，将自注意力机制嵌入所述3d-cmgan网络模型的3d卷积过程中，使特征提取时可以对不同评估时期的重要区域特征进行判别。

17、进一步的，所述3d-cmgan网络模型中包括三个损失函数，分别为判别网络的生成对抗损失函数log(1-d(g(z)))，生成视频与真实视频的鉴别器损失函数log(d(x))，以及结构相似性损失函数s(b,g)，所述3d-cmgan网络的目标损失函数表达式为：

18、l3d-cmgan＝log(1-d(g(z)))+log(d(x))+s(b,g)

19、其中，z是概率空间中p(z)的潜向量，g(z)为生成网络的输出,d(x)为判别网络的输出结果，结构相似性损失函数s(b,g)的表达式为：

20、s(b,g)＝f(l(b,g),c(b,g),s(b,g))

21、其中，l(b,g)为两帧图像的亮度相似度，c(b,g)为两帧图像的对比度，s(b,g)为两帧图像的结构信息，b为b模式超声视频，g为模型生成的类造影视频。

22、进一步的，步骤s5和s6中，将病史数据的文本类型变量转化得到的数字型一维向量添加至所述3d-cmgan网络模型的编码层；在对编码后得到的隐编码进行解码时，结合患者不同类型的特征信息生成不同评估时期的类造影视频数据。

23、进一步的，步骤s5中，使用所述预训练数据对3d-cmgan网络模型从零开始初始化，待模型训练至收敛即损失函数小于预设阈值且不再有明显地下降时停止，将3d-cmgan网络模型结合术前b模视频和术前结节造影视频训练得到的权重参数作为后续不同评估时期3d-cmgan网络模型迁移学习的权重参数。

24、进一步的，步骤s6中，使用迁移学习的方式对不同评估时期的3d-cmgan网络模型进行训练时，根据不同评估时期3d-cmgan网络模型的训练结果，对网络模型的超参数进行调整，包括调整不同评估时期的3d-cmgan网络模型中的学习率大小、训练时的批量大小、迭代次数、优化器类型、动量参数大小、生成器和判别器的初始化方式，以优化训练的过程。...

【技术保护点】

1.一种基于3D-CMGAN网络的类造影视频生成方法，其特征在于，包括如下步骤：

2.如权利要1所述的基于3D-CMGAN网络的类造影视频生成方法，其特征在于，所述3D-CMGAN网络模型中，视频编码器用于将常规B模视频数据通过卷积神经网络对视频特征进行提取，并将其映射至隐空间中进行表示；文本编码器用于通过独特编码、标准化、Word2Vec和归一化的方法，将患者的不同类型文本类信息映射至低维度的向量空间中，表示患者文本信息的语义特征，同时对文本低维信息进行升维，并使用舒尔积进行融合文本特征，再与隐空间中的视频特征进行融合；生成网络用于将视频输入数据进行逆变换，将在隐空间中融合后的视频与文本特征转化为生成的类造影视频功能；判别网络用于判断真实输入的造影视频数据和3D-CMGAN网络生成的造影视频的相似程度，判别模型无法判断两者的真假时，则认为生成模型的输出为真，输出1，反之，则输出0，根据定义的损失函数对模型传播过程进行反向传播，在训练过程中更新模型参数。

3.如权利要2所述的基于3D-CMGAN网络的类造影视频生成方法，其特征在于，步骤S2中，使用Pyth

4.如权利要3所述的基于3D-CMGAN网络的类造影视频生成方法，其特征在于，步骤S2中，对不同类型的特征信息进行特征工程包括：

5.如权利要4所述的基于3D-CMGAN网络的类造影视频生成方法，其特征在于，步骤S5和S6中，将自注意力机制嵌入所述3D-CMGAN网络模型的3D卷积过程中，使特征提取时可以对不同评估时期的重要区域特征进行判别。

6.如权利要5所述的基于3D-CMGAN网络的类造影视频生成方法，其特征在于，所述3D-CMGAN网络模型中包括三个损失函数，分别为判别网络的生成对抗损失函数Log(1-D(G(z)))，生成视频与真实视频的鉴别器损失函数Log(D(x))，以及结构相似性损失函数

7.如权利要6所述的基于3D-CMGAN网络的类造影视频生成方法，其特征在于，步骤S5和S6中，将病史数据的文本类型变量转化得到的数字型一维向量添加至所述3D-CMGAN网络模型的编码层；在对编码后得到的隐编码进行解码时，结合患者不同类型的特征信息生成不同评估时期的类造影视频数据。

8.如权利要7所述的基于3D-CMGAN网络的类造影视频生成方法，其特征在于，步骤S5中，使用所述预训练数据对3D-CMGAN网络模型从零开始初始化，待模型训练至收敛即损失函数小于预设阈值且不再有明显地下降时停止，将3D-CMGAN网络模型结合术前B模视频和术前结节造影视频训练得到的权重参数作为后续不同评估时期3D-CMGAN网络模型迁移学习的权重参数。

9.如权利要8所述的基于3D-CMGAN网络的类造影视频生成方法，其特征在于，步骤S6中，使用迁移学习的方式对不同评估时期的3D-CMGAN网络模型进行训练时，根据不同评估时期3D-CMGAN网络模型的训练结果，对网络模型的超参数进行调整，包括调整不同评估时期的3D-CMGAN网络模型中的学习率大小、训练时的批量大小、迭代次数、优化器类型、动量参数大小、生成器和判别器的初始化方式，以优化训练的过程。

10.如权利要9所述的基于3D-CMGAN网络的类造影视频生成方法，其特征在于，步骤S5中，生成不同时期的类造影视频包括使用用于不同评估时期的超声类造影视频生成模型训练术后1个月、3个月、6个月和12个月的结节类造影视频。

...

【技术特征摘要】

1.一种基于3d-cmgan网络的类造影视频生成方法，其特征在于，包括如下步骤：

2.如权利要1所述的基于3d-cmgan网络的类造影视频生成方法，其特征在于，所述3d-cmgan网络模型中，视频编码器用于将常规b模视频数据通过卷积神经网络对视频特征进行提取，并将其映射至隐空间中进行表示；文本编码器用于通过独特编码、标准化、word2vec和归一化的方法，将患者的不同类型文本类信息映射至低维度的向量空间中，表示患者文本信息的语义特征，同时对文本低维信息进行升维，并使用舒尔积进行融合文本特征，再与隐空间中的视频特征进行融合；生成网络用于将视频输入数据进行逆变换，将在隐空间中融合后的视频与文本特征转化为生成的类造影视频功能；判别网络用于判断真实输入的造影视频数据和3d-cmgan网络生成的造影视频的相似程度，判别模型无法判断两者的真假时，则认为生成模型的输出为真，输出1，反之，则输出0，根据定义的损失函数对模型传播过程进行反向传播，在训练过程中更新模型参数。

3.如权利要2所述的基于3d-cmgan网络的类造影视频生成方法，其特征在于，步骤s2中，使用python语言编写的pydicom和simpleitk科学数据库将所述dicom格式的术前b模视频和结节造影视频转换为高质量avi格式视频，并解析得到患者的临床信息、心脏射血分数和心率特征信息，所述临床信息包括患者的年龄、性别、体重、吸烟史、饮酒史、主诉和病史。

4.如权利要3所述的基于3d-cmgan网络的类造影视频生成方法，其特征在于，步骤s2中，对不同类型的特征信息进行特征工程包括：

5.如权利要4所述的基于3d-cmgan网络的类造影视频生成方法，其特征在于，步骤s5和s6中，将自注意力机制嵌入所述3d-cmgan网络模型的3d卷积过程中，使特征提取时可以对不同评估时期的重要区域特...

【专利技术属性】
技术研发人员：徐栋，刘元振，姚劲草，冯博健，施乐，朱熹，
申请(专利权)人：浙江省肿瘤医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人