基于注意力机制的视频眼震图眼震类型识别方法及系统技术方案

技术编号:36432228 阅读:21 留言:0更新日期:2023-01-20 22:44
本发明专利技术涉及一种基于注意力机制的视频眼震图眼震类型识别方法及系统,所述的方法包括:所述的方法包括以下步骤:步骤S1、读取输入的视频眼震图;步骤S2、对步骤S1得到的视频眼震图进行预处理,得到预处后的视频眼震图数据;步骤S3、根据引入了结合注意力机制的改进的MoblieNetV2算法对步骤S2中预处理后的视频眼震图数据进行特征提取;步骤S4、根据步骤S3提取的特征预测出眼震类型。与现有技术相比,本发明专利技术具有提升特征提取能力、提升眼震类型分类准确率、医学临床应用上价值高等优点。医学临床应用上价值高等优点。医学临床应用上价值高等优点。

【技术实现步骤摘要】
基于注意力机制的视频眼震图眼震类型识别方法及系统


[0001]本专利技术涉及医疗诊断
,尤其是涉及一种基于注意力机制的视频眼震图眼震类型识别方法及系统。

技术介绍

[0002]良性阵发性位置性眩晕(BPPV)是眩晕症的一种,在临床上比较常见。BPPV是指在头部运动中,到某一个或者某几个特定位置时,会出现短暂的、阵发性的眩晕,严重时候可能会导致恶心呕吐。长期的未经控制的BPPV会对患者的日常生活造成严重的影响,同时BPPV也是引发老年人摔倒的原因之一。大量研究表明,BPPV的发生与前庭系统的变化有关,而眼球运动和前庭有着紧密的联系,因此,通过观察眼球的运动,就可以对BPPV做出诊断。根据眼球的不同的动作轨迹和方向,可以划分出不同的眼震模式,基础的有水平、垂直、对角、旋转等。在实际的临床诊断中,眼震模型可能是多种复合,例如水平和旋转等。
[0003]对于眼球运动的观察,可以直接在肉眼下完成,也可以借助各种仪器。常见的辅助检查技术是眼震电图(elector

nystagmography,ENG)和视频眼震图(Video Nystagmography,VNG)。由于ENG对人体影响较大且容易受到干扰,在临床应用上,VNG逐渐成为主流。医生通过分析VNG视频分析视频中的眼震的方向,频率,强度以及持续时间,就可以判断出患者的BPPV所属的类型。
[0004]随着人工智能的发展,对比人工诊断方式,利用计算机对VNG视频进行诊断,效率更高且更加准确,不容易受到外界的干扰。近年来,深度学习算法在学术界及其工业界得到了极为广泛的应用,且在医疗、金融、艺术设计、模式识别、无人驾驶等各领域崭露头角,在许多评价指标上均超过了人类水平。CNN是最常见的深度神经网络结构,被广泛应用于计算机视觉,计算机图形学等相关领域,如人脸识别,图像分割等。1998年,LeCun提出了LeNet,确立了现代CNN的基本网络结构。通过增加CNN的网络深度,可以获得更强大的特征提取和表征能力,从而提升网络效果,但是也带来了计算量过大、网络难以收敛、难以优化、容易过拟合等特点。因此,后期有大量的研究者关注于简化网络结构,用更小的开销和计算量以达到相同的效果。其具有代表性的网络有Inception v4、SqueezeNet、MobileNet等。
[0005]目前,在临床上,医疗影像已经得到极为广泛的应用,成为诊断疾病不可或缺的途径。医疗影像是指通过医疗成像设备,获取人体表面或者人体内部某个部分的成像,常见的医疗影像有X光片、核磁共振(Magnetic Resonance Imaging,MRI)、B型超声检查(B

scan Ultrasonography)、计算机断层成像(Computed Tomography,CT)等。得益于计算机视觉技术的快速发展,计算机已经能够成功应用于医学影像分析领域,从而辅助医生诊断。对于医疗影像的分析,主要可以分为三种:医疗影像分割、医疗影像分类、医疗影像检测。对于某些比较复杂的任务,会首先在整个医疗影像上定位感兴趣区域(Region of Interest,ROI),之后对ROI进行分割后识别,依据结果进行判断。
[0006]传统方法通常是跟踪瞳孔的运动轨迹,人工提取特征,再将特征输入到算法中进行分类,具有较强的主观性和局限性,且眼球的运动是全方位的,对眼球轴向旋转矢量特征
提取是较为困难的。且部分方法只能做到区分患者和正常人,即是否存在眼震,或者对简单的眼球震颤模式进行分类。但是在实际情况下,患者可能会存在多种类型复合的眼震。
[0007]因此,如何准确的提取视频眼震图特征,对多种类型复合的眼震进行准确分类,成为需要解决的技术问题。

技术实现思路

[0008]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于注意力机制的视频眼震图眼震类型识别方法及系统。
[0009]本专利技术的目的可以通过以下技术方案来实现:
[0010]一种基于注意力机制的视频眼震图眼震类型识别方法,所述的方法包括以下步骤:
[0011]步骤S1、读取输入的视频眼震图;
[0012]步骤S2、对步骤S1得到的视频眼震图进行预处理,得到预处后的视频眼震图数据;
[0013]步骤S3、采用改进的MoblieNetV2算法对步骤S2中预处理后的视频眼震图数据进行特征提取,其中改进的MoblieNetV2算法引入了结合注意力机制;
[0014]步骤S4、根据步骤S3提取的特征预测出眼震类型。
[0015]进一步地,所述的视频眼震图为标准音频视频交错格式或动态图像专家组格式。
[0016]进一步地,所述的预处理方法具体为:将视频眼震图转换为灰度,利用霍夫圆变换算法获取视频眼震图中的瞳孔中心位置,若瞳孔半径大于35px,则将视频裁剪为六倍瞳孔半径的大小;若瞳孔半径小于35px,则将视频裁剪为224px*224px的大小,之后将视频按顺序解帧。
[0017]进一步地,所述的结合注意力包括:
[0018]时空特征注意力机制,用于激励时空特征;
[0019]通道注意力机制,用于表征时间信息上的通道特征;
[0020]运动注意力机制,用于利用相邻帧间的特征差异构建运动特征。
[0021]进一步地,所述的改进的MoblieNetV2算法具体为:卷积层采用3D卷积的方法,在瓶颈层加入通道混洗机制,在后续单元加入BN层,激活函数为Mish函数。
[0022]一种实现所述的基于注意力机制的视频眼震图眼震类型识别方法的系统,所述的系统包括:
[0023]视频数据库构建子系统,用于读取输入的视频眼震图,并对其进行预处理;
[0024]眼震预测子系统,用于通过引入了结合注意力机制的改进的MoblieNetV2算法对预处理后的视频眼震图数据进行特征提取,预测出眼震类型;
[0025]所述的视频数据库构建子系统和眼震预测子系统连接。
[0026]进一步地,所述的视频数据库构建子系统包括:
[0027]数据输入单元,用于输入视频眼震图;
[0028]数据读取单元,用于读取输入的视频眼震图;
[0029]数据预处理单元,用于对输入的视频眼震图进行数据预处理;
[0030]所述的数据输入单元、数据读取单元和数据预处理单元依次相连。
[0031]进一步地,所述的眼震预测子系统包括:
[0032]MobileNetV2单元,用于通过改进的MoblieNetV2算法对预处理后的视频眼震图数据进行特征提取;
[0033]注意力机制单元,用于通过结合注意力机制进一步的提取视频眼震图数据的特征;
[0034]预测单元,用于通过提取的特征预测出眼震类型;
[0035]所述的MobileNetV2单元、注意力机制单元和预测单元依次相连;所述的数据预处理单元和MobileNetV2单元相连。
[0036]一种电子设备,包括存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的视频眼震图眼震类型识别方法,其特征在于,所述的方法包括以下步骤:步骤S1、读取输入的视频眼震图;步骤S2、对步骤S1得到的视频眼震图进行预处理,得到预处后的视频眼震图数据;步骤S3、采用改进的MoblieNetV2算法对步骤S2中预处理后的视频眼震图数据进行特征提取,其中改进的MoblieNetV2算法引入了结合注意力机制;步骤S4、根据步骤S3提取的特征预测出眼震类型。2.根据权利要求1所述的一种基于注意力机制的视频眼震图眼震类型识别方法,其特征在于,所述的视频眼震图为标准音频视频交错格式或动态图像专家组格式。3.根据权利要求1所述的一种基于注意力机制的视频眼震图眼震类型识别方法,其特征在于,所述的预处理方法具体为:将视频眼震图转换为灰度,利用霍夫圆变换算法获取视频眼震图中的瞳孔中心位置,若瞳孔半径大于35px,则将视频裁剪为六倍瞳孔半径的大小;若瞳孔半径小于35px,则将视频裁剪为224px*224px的大小,之后将视频按顺序解帧。4.根据权利要求1所述的一种基于注意力机制的视频眼震图眼震类型识别方法,其特征在于,所述的结合注意力包括:时空特征注意力机制,用于激励时空特征;通道注意力机制,用于表征时间信息上的通道特征;运动注意力机制,用于利用相邻帧间的特征差异构建运动特征。5.根据权利要求1所述的一种基于注意力机制的视频眼震图眼震类型识别方法,其特征在于,所述的改进的MoblieNetV2算法具体为:卷积层采用3D卷积的方法,在瓶颈层加入通道混洗机制,在后续单元加入BN层,激活函数为Mish函数。6.一种实现如权利要求1所述的基于注意力机制的视频眼...

【专利技术属性】
技术研发人员:邱禧荷史少杰王海玲高永彬方志军李文妍吴沛霞
申请(专利权)人:上海工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1