眼部图像斜视类型的分类方法、系统、设备及存储介质技术方案

技术编号:38140399 阅读:10 留言:0更新日期:2023-07-08 09:54
本发明专利技术公开了一种眼部图像斜视类型的分类方法、系统、设备及存储介质,涉及人工智能领域中的眼部图像的斜视分类,其目的在于解决上述现有技术中对眼部图像的斜视类型分类准确率较低的技术问题。其通过输入包含患者基本信息的文本数据和包括患者的眼部图像的图像数据,采用基于ResNet50V2模型残差块连接机制的特征提取模块对眼部图像数据进行特征提取,然后采用基于联合多头注意力机制的特征融合模块,对ResNet50V2提取的图像特征和经过归一化处理的文本特征进行融合,最后采用基于层级分类方法的多分类模块,输出分类结果(正常以及斜视的10种分类)。整个模型通过多模态和层级分类架构提升了多分类精度,减少了类间错误,具有较强的现实意义和临床价值。具有较强的现实意义和临床价值。具有较强的现实意义和临床价值。

【技术实现步骤摘要】
眼部图像斜视类型的分类方法、系统、设备及存储介质


[0001]本专利技术涉及人工智能
,涉及一种眼部图像斜视类型的分类方法,尤其涉及一种眼部图像斜视类型的分类方法、系统、设备及存储介质。

技术介绍

[0002]斜视是眼科临床常见疾病,患病率约为 3%,可引起患者单眼抑制和视网膜对应异常,从而导致永久性视觉损伤。此外,斜视还会对患者产生严重的心理社会后果。综上所述,斜视在视觉功能、外表、学习能力、工作机会、心理健康等方面对患者有着重大而长期的影响。斜视起病隐匿,许多年轻的斜视患者如果及早诊断,将获得更好的治愈机会。因此,尽早进行斜视的筛查和诊断至关重要。目前,斜视筛查、诊断主要由眼科医生通过几种测试手动进行,如遮盖和去遮盖测试、三棱镜遮盖测试等,需要患者和医生高度合作,且检查时间较长。这些测试非常依赖医生的技能和经验,检查结果较为主观,但目前我国眼科医师资源缺口巨大,良莠不齐,因此存在着漏诊、误诊的风险。因此利用深度学习方法开发可靠的人工智能系统,实现快速、自动斜视筛查与诊断,并提供相对更客观的诊断结果,进而尽早启动治疗干预,对于斜视患者视觉功能的保护以及生活质量的改善具有重大意义。
[0003]在当前的人工智能眼部图像分类
中,通过对眼部图像进行分类,得出图像中眼部斜视的分类结果,其主要有两大类研究方法:基于传统分步学习的眼部关键区域分割算法和基于端到端学习的分类算法。在眼部关键区域分割算法的研究中,研究者们多采用预先训练好的人脸检测模型提取人脸图像的眼部区域,并得到瞳孔中心、角膜映光点等关键区域的坐标进行运算,然后利用预先设定的阈值和坐标运算结果进行数值比较,判断有无斜视以及斜视的类型。Choi等人提出了一种基于图像处理的斜视筛查模型,该模型使用第一眼部图像,对分割算法得到的眼部轮廓边缘上的所有像素点进行采样,并应用最小二乘法得到瞳孔中心的坐标。通过计算瞳孔中心到内、外眼角的距离来衡量斜视照片中双眼位置的相似性,判断有无斜视;Ma等人采用相似的方法分别得到双眼角膜中心和角膜映光点的坐标,并通过坐标的相对位置分别测算角膜映光点相对于相应角膜中心的水平和垂直偏移,判断有无斜视;Kang等人则首次利用第一、第二和第三眼部图像,基于U

Net分割算法得到角膜映光点、瞳孔中心、双眼内外眼角以及上下眼睑沿点坐标,通过将第二和第三眼部图像上的坐标依照参考系平移到第一眼部图像上,进行坐标运算,实现了内斜视、外斜视、上斜视、下斜视的多分类任务。在端到端分类算法的研究中,Zheng等人基于R

CNN架构,使用水平斜视和正位的第一眼部图像训练深度学习模型,实现了水平斜视和正常的二分类任务;Lin等人则基于InceptionResNetV2架构,使用各种类型的斜视和正位的第一眼部图像训练深度学习模型,实现了斜视和正常的二分类任务。
[0004]基于传统分步学习的眼部关键区域分割算法的研究,通过将眼部特征点坐标运算的结果和预先设定的阈值进行比较,判定有无斜视以及斜视的类型;该类方法利用的是较小范围内的统计数据进行阈值选取,较为主观,且均在较小数据集上进行验证,导致所选阈值容易形成偏倚,难以大范围推广,对斜视类型的分类准确率较低。基于端到端学习的分类
算法的研究,虽利用了大量的图像数据进行训练,可推广性更好,但目前仍停留于斜视和正常的二分类任务,对临床的实践应用帮助有限,对斜视类型的分类准确率较低。

技术实现思路

[0005]本专利技术的目的在于:为了解决上述现有技术中对眼部图像的斜视类型分类准确率较低的技术问题,本专利技术提供一种眼部图像斜视类型的分类方法、系统、设备及存储介质。
[0006]本专利技术为了实现上述目的具体采用以下技术方案:一种眼部图像斜视类型的分类方法,包括如下步骤:步骤S1,获取样本数据获取样本数据,所述样本数据包括眼部图像样本数据、文本样本数据;步骤S2,构建特征提取网络模型构建特征提取网络模型,特征提取网络模型包括特征预提取网络模型、特征粗提取网络模型、特征细提取网络模型以及分类网络,特征预提取网络模型包括ResNet50V2图像提取模型、文本提取模型;步骤S3,训练特征提取网络模型采用步骤S1获取的样本数据对步骤S2构建的特征提取网络模型进行训练;将眼部图像样本数据作为ResNet50V2图像提取模型的输入,文本样本数据作为文本提取模型的输入,ResNet50V2图像提取模型、文本提取模型的输出作为特征粗提取网络模型的输入,特征粗提取网络模型的输出作为特征细提取网络模型的输入,特征细提取网络模型的输出作为分类网络的输入,分类网络输出分类结果;步骤S4,斜视实时分类获取实时的眼部图像数据、文本数据,并将眼部图像数据、文本数据输入步骤S3训练完成的特征提取网络模型,特征提取网络模型输出分类结果。
[0007]进一步地,步骤S2中,ResNet50V2图像提取模型包括依次连接的零填充、二维卷积层、零填充、最大池化层、残差模块、批量归一化层、线性整流单元、平均池化层以及全连接层。
[0008]更进一步地,残差模块包括依次连接的多个残差块,最后一个残差块包括两个基本块,其余残差块包括三个基本块。
[0009]更进一步地,每个基本块均包括依次连接的第一批量归一化层、第一线性整流单元;第一线性整流单元的输出分成并列的两路,一路依次经第一二维卷积层、第二批量归一化层、第二线性整流单元、零填充、第二二维卷积层、第三批量归一化层、第三线性整流单元输入第三二维卷积层,另一路输入第四二维卷积层,第三二维卷积层、第四二维卷积层的输入融合后作为整个基本块的输出。
[0010]进一步地,步骤S3中,训练特征提取网络模型时,特征预提取网络模型的残差块借助relu函数进行非线性激活,具体公式为:其中,表示残差单元序列,表示该残差单元的输入,是和该残差单元相关的一些列权重和变差,是残差单元的网
络层的数目,表示激活函数,一般使用ReLU。
[0011]进一步地,步骤S2中,特征粗提取网络模型、特征细提取网络模型均为联合注意力机制的特征提取网络,包括依次设置的多个自注意力网络块;将图像信息作为注意力机制中的K和V,将文本信息作为注意力机制中的Q,整个注意力机制的过程是将文本信息作为模型对图像信息的关注程度进行评分,得到矩阵,这个矩阵的乘积作为权重作用于对图像信息分析所得出的结果V上,得到最终的注意力计算结果。
[0012]更进一步地,步骤S3中,训练特征提取网络模型时,特征粗提取网络模型、特征细提取网络模型的前向学习注意力的计算公式为:其中,表示矩阵的维度,矩阵QK所含有的一个样本所含信息的维度;表示转置。
[0013]一种眼部图像斜视类型的分类系统,包括:样本数据获取模块,用于获取样本数据,所述样本数据包括眼部图像样本数据、文本样本数据;特征提取网络模型构建模块,用于构建特征提取网络模型,特征提取网络模型包括特征预提取网络模型、特征粗提取网络模型、特征细提取网络模型以及分类网络,特征预提取网络模型包括ResNet50V2图像提取模型、文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种眼部图像斜视类型的分类方法,其特征在于,包括如下步骤:步骤S1,获取样本数据获取样本数据,所述样本数据包括眼部图像样本数据、文本样本数据;步骤S2,构建特征提取网络模型构建特征提取网络模型,特征提取网络模型包括特征预提取网络模型、特征粗提取网络模型、特征细提取网络模型以及分类网络,特征预提取网络模型包括ResNet50V2图像提取模型、文本提取模型;步骤S3,训练特征提取网络模型采用步骤S1获取的样本数据对步骤S2构建的特征提取网络模型进行训练;将眼部图像样本数据作为ResNet50V2图像提取模型的输入,文本样本数据作为文本提取模型的输入,ResNet50V2图像提取模型、文本提取模型的输出作为特征粗提取网络模型的输入,特征粗提取网络模型的输出作为特征细提取网络模型的输入,特征细提取网络模型的输出作为分类网络的输入,分类网络输出分类结果;步骤S4,斜视实时分类获取实时的眼部图像数据、文本数据,并将眼部图像数据、文本数据输入步骤S3训练完成的特征提取网络模型,特征提取网络模型输出分类结果。2.如权利要求1所述的一种眼部图像斜视类型的分类方法,其特征在于:步骤S2中,ResNet50V2图像提取模型包括依次连接的零填充、二维卷积层、零填充、最大池化层、残差模块、批量归一化层、线性整流单元、平均池化层以及全连接层。3.如权利要求2所述的一种眼部图像斜视类型的分类方法,其特征在于:残差模块包括依次连接的多个残差块,最后一个残差块包括两个基本块,其余残差块包括三个基本块。4.如权利要求3所述的一种眼部图像斜视类型的分类方法,其特征在于:每个基本块均包括依次连接的第一批量归一化层、第一线性整流单元;第一线性整流单元的输出分成并列的两路,一路依次经第一二维卷积层、第二批量归一化层、第二线性整流单元、零填充、第二二维卷积层、第三批量归一化层、第三线性整流单元输入第三二维卷积层,另一路输入第四二维卷积层,第三二维卷积层、第四二维卷积层的输入融合后作为整个基本块的输出。5.如权利要求1所述的一种眼部图像斜视类型的分类方法,其特征在于:步骤S3中,训练特征提取网络模型时,特征预提取网络模型的残差块借助relu函数进行非线性激活,具体公式为:其中,表示残差单元序列,表示该残差单元的输入,是和该残差单元相关的一些列权重和变差,是残差单元的网络层的数目...

【专利技术属性】
技术研发人员:刘陇黔张海仙吴达文李彦霏杨国渊毛轶绩封毅魏文远
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1