基于CBAUnet的双注意力快速舌轮廓提取方法及系统技术方案

技术编号:38929336 阅读:12 留言:0更新日期:2023-09-25 09:35
本发明专利技术公开了一种基于CBAUnet的双注意力快速舌轮廓提取方法及系统,该方法包括获取原始的舌部的超声图像数据集;将原始的超声图像数据集进行预处理;将预处理的数据输入CBAUnet网络中,将预处理后的超声图像进行编码后,利用综合注意力模块的AG门控注意力和CBAM注意力的双注意力机制得到不同尺度信息的特征图;根据所述特征图将目标特征信息统计后再由解码器进行各阶段的解码,得到像素还原后的轮廓图。本申请设计的CBAUnet网络,在减轻原U

【技术实现步骤摘要】
基于CBAUnet的双注意力快速舌轮廓提取方法及系统


[0001]本专利技术涉及轮廓提取
,尤其涉及一种基于CBAUnet的双注意力快速舌轮廓提取方法。

技术介绍

[0002]超声技术干净、安全且价格便宜,能够实现对舌部和口腔成像。从影像中精确提取舌部轮廓,有助于医生观察因病无法正常发声或者语言障碍患者的发声情况,也可以为一些机密场合提供语言发音参考,或是将舌特征作为生物信号输入无声语音接口。简言之,超声舌轮廓的提取为人与人之间语言的交流提供了有力保障。
[0003]研究表明,舌轮廓是定量研究语音的一个很好的起点,从舌头轮廓导出的信息可以支持发音模型得到更深入的理解和发展。因为超声可以动态描述属于不同语音的舌头位置,以及表征发音期间产生声音转换的舌头运动,所以和无声语音相关的各种应用几乎都涉及了超声舌轮廓的提取环节,提取超声舌轮廓成为了一个基础的必要性操作。超声舌轮廓的提取精确度关乎整个语音任务的精准性,提取的实时性关乎整个过程的效率。因此,探索出一个准确又快速的超声舌轮廓跟踪提取方法极为重要。
[0004]目前,舌轮廓的自动跟踪极具挑战。从超声舌成像过程来看,高度散斑噪声伴随整个过程;舌骨和颌骨有时会阻挡超声波;舌本身的肌肉纤维反射率差使得回声路径不完整,致使矢状轮廓不完整;舌的软组织结构在变换舌位时成像包含伪影,轮廓甚至完全不存在。从提取方法的角度来说,舌头轮廓拟合的精度在很大程度上取决于超声资料的质量和轮廓跟踪算法的类型。同时,由于提取方法的半自动或手动工作的性质,提取速度可能达不到高速。现有的研究成果中极少讨论速度,统一的行业规范还未形成,仅在文献3的研究中记录了29.8fps的舌头轮廓提取速度。
[0005]已经存在多种技术用于超声图像中的舌头轮廓跟踪,例如活动轮廓模型、基于图形的技术、基于机器学习的方法等。在这些研究中,手动标记至少对于初始化是必不可少的,因此EdgeTrak等著名软件包也无法实时跟踪舌头轮廓。深度学习方法的出现引起了研究者的极大关注。卷积神经网络被认为已经足够强大,可以用于像超声舌头轮廓跟踪这样的特征提取研究。深度置信网络和深度自动编码器表现出了较好的效果。在此之后,研究者们发现深度学习方法的准确性与训练数据集的大小和深度网络模型的复杂性高度相关。因此,在训练样本的数量和网络参数数量之间总是存在权衡。较高精度的提取结果依托于分割网络必须获取到足够的语义信息与丰富的细节信息。如果通过加深网络参数以及提高输入图像的分辨率去实现高精度分割,就会导致计算量的暴增和分割效率的降低。然而,即使在缺乏标记的训练数据时,CBAUnet在分割医学图像方面也能取得了较好的分割结果,其程度已成为医学图像分割的实际标准。不过,其网络内部具有多层的深层架构,计算资源在训练和测试阶段的耗费还是非常大的,这对于超声舌轮廓实时跟踪来说是一个需要深思的问题。
[0006]尽量少的计算资源耗费使得近几年深度学习领域的研究重点转向注意力机制。注
意力机制在人类感知中起着至关重要的作用。通过注意力模块,深层的卷积神经网络可以加速学习过程,为目标任务提取更多关键特征,增强网络模型的鲁棒性。Kaul等提出了一种将注意力纳入全卷积神经网络的FocusNet方法,该方法从由单独的卷积自动编码器生成的特征图中执行医学图像分割。例如一篇名为CBAUnet跳过连接上添加注意门(Attention Gate,AG)的方法的文献中,提出了以提高胰腺分割协议中的预测准确性和灵敏度。另一篇文献中,提出SENet通过显式地建模通道之间的相互依赖性来自适应地重新校准通道特征响应。还有人提出的卷积块注意模块(Convolutional Block Attention Module,CBAM)是轻量级的通用模块,几乎不使用任何计算资源,并且能够基于给定的中间变量执行自适应特征细化特征图。对于超声舌轮廓提取任务,舌轮廓线只占到整幅图像的极小区域,把注意力集中在该小部分目标区域上,不但可以加快训练速度,更可以增强在该区域中的对象表示,并突出特征细节,因此可以在网络中增加注意力机制,通过给特征增加权重,网络将减少对无关背景要素的关注度,加快对舌轮廓特征的学习速度。然而,对于超声舌轮廓提取任务,超声舌轮廓图可能具有模糊的边界以及不规则的形状,因此依靠单一的关注机制很难在舌轮廓分割任务中很好地执行。

技术实现思路

[0007]因此,本专利技术的目的在于提供一种基于CBAUnet的双注意力快速舌轮廓提取方法,重新设计了CBAUnet网络的内部结构和综合注意力学习模块,将综合注意力学习模块的输出,嵌入到重新设计的CBAUnet网络;实现了舌轮廓的快速分割与提取。
[0008]为了实现上述目的,为了实现上述目的,本专利技术的一种基于CBAUnet的双注意力快速舌轮廓提取方法,包括以下步骤:
[0009]S1、获取原始的舌部的超声图像数据集;
[0010]S2、将原始的超声图像数据集进行预处理;
[0011]S3、将预处理后的数据输入CBAUnet网络中,将预处理后的超声图像进行编码后,利用综合注意力模块的AG门控注意力和CBAM注意力的双注意力机制得到不同尺度信息的特征图;
[0012]S4、根据所述特征图将目标特征信息统计后再由解码器进行各阶段的解码,得到像素还原后的轮廓图。
[0013]进一步优选的,在S1中,所述超声图像数据集包括NS数据集、TJU数据集和TIMIT数据集。
[0014]进一步优选的,在S2中,所述超声图像数据集进行预处理的过程包括如下步骤:
[0015]将获取的数据集进行归一化处理,归一化后将图片大小统一调整为96像素
×
96像素;
[0016]利用transformer包对归一化后的图片进行随机旋转和随机翻转训练;
[0017]在训练过程中,根据随机概率调整色调、饱和度、亮度和对比度;
[0018]将调整后的图像进行标注,形成带标注的数据集。
[0019]进一步优选的,在S3中,将预处理后的超声图像进行编码后,利用综合注意力模块的AG门控注意力和CBAM注意力的双注意力机制得到不同尺度信息的特征图,包括以下步骤:
[0020]将传统U

Net网络中每一级的编码卷积块和解码卷积块中,减少一个卷积层,并在传统U

Net网络中嵌入综合注意力模块,形成CBAUnet网络;
[0021]在综合注意力模块中将AG门控注意力和CBAM注意力并联,利用AG门控注意力从编码后的信息中,自适应学习专注于不同形状和大小的目标结构,通过隐式学习突出显示对特定任务有用的特征,抑制输入图像中不相关的区域;利用CBAM注意力基于特征的空间关系和通道关系;分别生成空间注意力图和通道注意力图;
[0022]再将空间注意力图和通道注意力图发送至对应级别的解码卷积块进行解码。
[0023]进一步优选的,所述AG门控注意力的输出结果采用如下公式表示:
[0024][0025][本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于CBAUnet的双注意力快速舌轮廓提取方法,其特征在于,包括以下步骤:S1、获取原始的舌部的超声图像数据集;S2、将原始的超声图像数据集进行预处理;S3、将预处理后的数据输入CBAUnet网络中,将预处理后的超声图像进行编码后,利用综合注意力模块的AG门控注意力和CBAM注意力的双注意力机制得到不同尺度信息的特征图;S4、根据所述特征图将目标特征信息统计后再由解码器进行各阶段的解码,得到像素还原后的轮廓图。2.根据权利要求1所述的基于CBAUnet的双注意力快速舌轮廓提取方法,其特征在于,在S1中,所述超声图像数据集包括NS数据集、TJU数据集和TIMIT数据集。3.根据权利要求1所述的基于CBAUnet的双注意力快速舌轮廓提取方法,其特征在于,在S2中,所述超声图像数据集进行预处理的过程包括如下步骤:将获取的数据集进行归一化处理,归一化后将图片大小统一调整为96像素
×
96像素;利用transformer包对归一化后的图片进行随机旋转和随机翻转训练;在训练过程中,根据随机概率调整色调、饱和度、亮度和对比度;将调整后的图像进行标注,形成带标注的数据集。4.根据权利要求1所述的基于CBAUnet的双注意力快速舌轮廓提取方法,其特征在于,在S3中,将预处理后的超声图像进行编码后,利用综合注意力模块的AG门控注意力和CBAM注意力的双注意力机制得到不同尺度信息的特征图,包括以下步骤:将传统U

Net网络中每一级的编码卷积块和解码卷积块中,减少一个卷积层,并在传统U

Net网络中嵌入综合注意力模块,形成CBAUnet网络;在综合注意力模块中将AG门控注意力和CBAM注意力并联,利用AG门控注意力从编码后的信息中,自适应学习专注于不同形状和大小的目标结构,通过隐式学习突出显示对特定任务有用的特征,抑制输入图像中不相关的区域;利用CBAM注意力基于特征的空间关系和通道关系;分别生成空间注意力图和通道注意力图;将空间注意力图和通道注意力图发送至对应级别的解码卷积块进行解码。5.根据权利要求1所述的基于CBAUnet的双注意力快速舌轮廓提取方法,其特征在于,AG门控注意力用于通过分析上下文信息和由从较粗尺度收集的选通信号(g)提供的激活选择空间区域;AG的输出是输入要素映射的元素与注意因子的乘积,计算方式的乘积,计算方式的乘积,计算...

【专利技术属性】
技术研发人员:王新强路文焕刘佳韦钰郝丽燕
申请(专利权)人:天津中德应用技术大学天津滨海迅腾科技集团有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1