一种基于多语义不平衡学习的血清样本图像分类方法技术

技术编号:38720730 阅读:7 留言:0更新日期:2023-09-08 23:15
本发明专利技术公开一种基于多语义不平衡学习的血清样本图像分类方法。首先,对原始图像进行裁剪和边缘识别等,获取含有血清样本信息的方形图片;接着,对训练样本进行预处理后使用深度10进行训练,构建分类模型,在模型评估时构建再平衡的数据集并进行联合测试,使得方法不会偏向于出现次数较多的类别;对样本图像训练一个二分类模型;然后,分别对这些模型使用应对类别不平衡的深度学习方法进行优化;最后,将得到的模型综合起来,得到一个用于识别血清样本质量的模型。本发明专利技术提出了一种新的应对多语义类别不平衡学习的方法,并结合神经网络二分类方法,实现了较高的图像分类精度。实现了较高的图像分类精度。实现了较高的图像分类精度。

【技术实现步骤摘要】
一种基于多语义不平衡学习的血清样本图像分类方法


[0001]本专利技术涉及一种基于多语义不平衡学习的血清样本图像分类方法,涉及图像检测与处理、多语义不平衡学习、神经网络二分类。具体来讲,本专利技术的关键是利用多语义不平衡学习来获得血清样本图像隐含的三个指标,并结合神经网络二分类方法,用以判断血清样本图像类别。

技术介绍

[0002]血清样本图像的识别通常是使用回归模型或者基于颜色空间的分类模型,存在效率低和识别不准确的问题。
[0003]血清样本图像分类具有不平衡、多语义等难点。一方面,血清图像从脂血、溶血、黄疸血这三个语义角度分别可分为正常、轻度、重度、严重等类别,在所收集到的数据中,正常类别的较多,而其他类别的血清样本(统称为异常样本)较少,类别不平衡现象明显;此外,对于某个样本图像,这三个不同的角度可能会得到不同的类别,样本特征又都杂糅在同一张图像中,相互之间会对分类形成较大的干扰。现有的方法大多数都无法同时解决多语义和不平衡这两大难点,因此分类效果不佳。

技术实现思路

[0004]专利技术目的:针对现有技术中存在的血清样本图像分类具有不平衡、多语义等难点,现有机器学习方法难以训练出能够准确分类的识别模型的问题与不足,本专利技术提供一种基于多语义不平衡学习的血清样本图像分类方法。在大量有标注样本的训练下,获得了远低于罗氏P612前处理仪器的假阴性率与较高的准确率,并且能够保证假阴性样本的各个指标符合领域标准。
[0005]技术方案:一种基于多语义不平衡学习的血清样本图像分类方法,包括原始图像处理,多语义不平衡及二分类模型训练,类别不平衡优化,以及血清样本图像识别结果生成四部分。
[0006]所述原始图像处理的过程具体为:步骤100,按原始血清图像上的黑线切出对应图像块;步骤101,用opencv中的裁剪和边缘检测等方式,把原始血清图像中的血清部分取出,排除背景和标记遮挡的影响;opencv是一个python的工具库,用来图像处理;步骤102,针对上一步中得到的血清部分的图片,切出32
×
32大小的方形图片;图片的尺寸大小的单位为像素;步骤103,对于质量不佳的方形图片,以上步骤不能得到可以用来预测的图片,因此直接判定为异常样本;所述质量不佳的方形图片指包含凝块或被遮挡的图片;步骤104,随机打乱所有样本后,大致按照8:2划分训练集和测试集。
[0007]多语义不平衡模型训练过程具体为:步骤200,对训练集数据使用RandomResizedCrop方法进行预处理,左右随机翻转,
然后按照训练集上所有样本的均值和方差进行归一化;RandomResizedCrop方法是图像处理的方法,用于随机裁剪出指定尺寸的图片;步骤201,初始化三个应对多语义的深度网络模型,分别应对3个不同的语义上的分类;步骤202,将训练数据输入网络模型进行训练;步骤203,初始化一个应对二分类的深度网络模型,用于图像正常和异常二分类;步骤204,从训练数据集中采样,得到正常和异常数目分布一致的子集输入深度网络模型,基于分类交叉熵损失进行模型更新,重复若干次;步骤205,对上述三个应对多语义的深度网络模型和一个二分类的深度网络模型测试,先将原始血清图片的短边缩放到40大小,然后从中心切出32大小的图片进行预测。
[0008]类别不平衡优化的具体过程为:步骤300,使用2种方法分别对模型进行评估;所述模型为三个应对多语义的深度网络模型和一个二分类的深度网络模型;步骤301,三个语义上的指标分开评测,针对每一个指标构建一个平衡的数据集,数据集中每种类别的样本数目基本一致就叫平衡数据集,如每一个类别抽取100样本。构造平衡数据集能够使得算法不会偏向于出现次数较多的正常类别;步骤302,在每个指标对应的平衡数据集上进行单独测试;步骤303,联合测试:针对测试集中的样本,同时测3个语义指标的结果,3个语义指标上的测试结果全对才算对;即对于某一个测试样本,如果模型在三个语义指标上的预测类别都与真实标记一致,即全对,则算模型做对了这个样本;只要错一个即算预测错误。
[0009]针对测试集中的样本,对正常和异常二分类的结果进行预测,且结果需和真实标记一致;步骤304,对构建好的模型使用应对类别不平衡的深度学习方法做优化。
[0010]血清样本图像识别结果生成的过程具体为:步骤400,将待识别样本图像中的血清部分图片切出,然后把短边缩放到40大小;步骤401,针对上一步中切出并缩放后的图像,再从中心切出32大小的方形图片;步骤402,将上一步得到的图片分别输入4个模型,得到3个语义指标上的识别数值以及正常和异常二分类结果;所述4个模型为三个应对多语义的深度网络模型和一个二分类的深度网络模型步骤403,判断3个语义指标的预测值是否正常,或者判断二分类的预测值是否正常;步骤404,如果有预测值不正常,就将待识别样本判定为异常,需要进一步送检;步骤405,如果预测指标都正常,输出结果为正常。
[0011]所述原始图像处理时采用了优化过的边缘检测算法,能够对部分标记遮挡形状不规则的样本进行更好的裁剪,从而提高样本的质量。
[0012]所述网络模型使用交叉熵损失函数,随机梯度下降进行优化,可以在每一轮训练中根据当前网络模型的表现获得一个解,用于优化网络参数。
[0013]所述二分类网络模型在线性分类层后初始化一个等大小的线性修正层,更新分类
模型的网络结构。
[0014]一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于多语义不平衡学习的血清样本图像分类方法。
[0015]一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于多语义不平衡学习的血清样本图像分类方法的计算机程序。
[0016]有益效果:与现有技术相比,本专利技术所提供的基于多语义不平衡学习的血清样本分类方法具有更快的识别速度、更高的准确率,更高的准确率使样本的各项指标预测均能满足用户给出的安全性要求,可以节省大量人力物力。
附图说明
[0017]图1为本专利技术中原始图像处理的流程图;图2为本专利技术中多语义不平衡模型训练流程图;图3为本专利技术中类别不平衡优化流程图;图4为本专利技术中血清样本图像识别结果生成的流程图。
实施方式
[0018]下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0019]原始图像处理的过程如图1所示。首先,按原始图像上的黑线切出对应图像块(步骤10);然后,用opencv中的裁剪和边缘检测等方式,把血清部分的图片取出,排除背景和标记遮挡的影响(步骤11);接着,切出32
×
32大小的方形图片(步骤12);之后,对无法切出有效区域的样本直接剔除(步骤13);最后,随机打乱所有有标记样本后,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多语义不平衡学习的血清样本图像分类方法,其特征在于,包括原始图像处理,多语义不平衡及二分类模型训练,类别不平衡优化,以及血清样本图像识别结果生成四部分;所述原始图像处理的过程具体为:步骤100,按原始血清图像上的黑线切出对应图像块;步骤101,把原始血清图像中的血清部分取出;步骤102,针对上一步中得到的血清部分的图片,切出设定大小的方形图片;步骤103,对于质量不佳的方形图片,直接判定为异常样本;所述质量不佳的方形图片指包含凝块或被遮挡的图片;步骤104,随机打乱所有样本后,划分训练集和测试集。2.根据权利要求1所述的基于多语义不平衡学习的血清样本图像分类方法,其特征在于,多语义不平衡模型训练过程具体为:步骤200,对训练集数据使用RandomResizedCrop方法进行预处理,左右随机翻转,然后按照训练集上所有样本的均值和方差进行归一化;步骤201,初始化三个应对多语义的深度网络模型,分别应对3个不同的语义上的分类;步骤202,将训练数据输入网络模型进行训练;步骤203,初始化一个应对二分类的深度网络模型,用于图像正常和异常二分类;步骤204,从训练数据集中采样,得到正常和异常数目分布一致的子集输入深度网络模型,基于分类交叉熵损失进行模型更新;步骤205,对上述三个应对多语义的深度网络模型和一个二分类的深度网络模型测试。3.根据权利要求2所述的基于多语义不平衡学习的血清样本图像分类方法,其特征在于,类别不平衡优化的具体过程为:步骤300,使用2种方法分别对模型进行评估;所述模型为三个应对多语义的深度网络模型和一个二分类的深度网络模型;步骤301,第一种评估方法:三个语义上的指标分开评测,针对每一个指标构建一个平衡的数据集;在每个指标对应的平衡数据集上进行单独测试;步骤302,第二种评估方法:联合测试:针对测试集中的样本,同时测3个语义指标的结果,3个语义指标上的测试结果需要与真实标记一致;针对测试集中的样本,对正常和异常二分类的结果进行预测,且结果需和真实标记一致;步骤303,对构建好的模型使用应对类别不平衡的深度学习方法做优化。4.根据权利要求3所述的基于多语义...

【专利技术属性】
技术研发人员:叶翰嘉施意姜远韩晓旭尚红满冬亮杨晓陶关一夫云科
申请(专利权)人:中国医科大学附属第一医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1