一种基于元学习的中医舌色域自适应分类方法技术

技术编号:35903483 阅读:16 留言:0更新日期:2022-12-10 10:40
本发明专利技术公开了一种基于元学习的中医舌色域自适应分类方法,包括构建源域和目标域舌色分类数据集、基于元学习的源域舌色分类网络训练、目标域网络模型微调与高质量伪标签生成、目标域舌色分类模型训练。使用ResNet18作为分类骨干网络,利用源域的有标注数据构建元训练和元测试任务;使用目标域少量标注样本对源域预训练的模型进行微调。利用微调后的模型对目标域的未标注数据进行分类,将分类预测结果作为伪标签。挑选出高质量的伪标签,作为标注数据,对目标域的分类模型进行微调,得到目标域的舌色分类模型,得到一个高精度的目标域舌色分类模型。本方法大大减少了模型的参数量,使模型易于训练和使用,具有良好的实际应用价值。值。值。

【技术实现步骤摘要】
一种基于元学习的中医舌色域自适应分类方法


[0001]本专利技术属于计算机视觉和中医舌诊领域,具体涉及计算机图像处理、深度学习、中医舌诊等技术。

技术介绍

[0002]舌诊是中医望诊的主要内容之一,是辨证施治的重要依据。舌象的变化可真实地反应人体脏腑的虚实、气血的盛衰、病位的深浅、病邪的性质以及预后的好坏,且这种变化迅速而鲜明,是医生诊断的重要依据。但舌诊与中医的其他诊法一样,用语言描述以文字记录,缺乏量化指标和客观记录手段,限制了中医宝贵经验的传承。随着时代的变迁,舌诊客观化已成为中医发展的必然之路。
[0003]近年来,深度学习逐渐被应用于舌诊客观化的研究中,大大提高了舌象分析处理的准确率。深度学习之所以能取得理想的性能,是以大量的标记数据为支撑的。然而采集、标记中医舌象样本数据费时费力,有标记的样本数据往往比较匮乏,导致训练出来的网络模型泛化能力较差。通过一台设备采集到的舌象数据训练出来的网络模型应用于另一台设备采集的舌图像时,由于光照、采集环境等条件发生了变化,舌象数据分布特性不一致,分类性能往往下降得十分严重,更有甚者会导致模型的失效。因此,如何提升模型的泛化能力就成为基于深度学习的舌诊客观化研究需要重点解决的问题。
[0004]域自适应是解决上述问题的一个重要思路。域自适应旨在学习一个鲁棒的网络模型,使得在源域训练好的模型能够在目标域的新任务上也能获得良好的性能。域自适应有助于解决目标域有标注数据稀缺的问题,避免从头进行数据采集、标注与模型训练,从而提高分类模型的泛化能力和知识迁移复用的能力。
[0005]元学习也被称为学习如何学习,其本质是通过构建若干元训练和元测试任务,对网络进行训练,学习到元知识,使其可以快速适应新样本的特点,实现对新任务的高效学习。
[0006]本专利技术利用元学习来解决中医舌色域自适应分类问题,提出了一种中医舌色域自适应分类方法。首先,利用源域的有标注舌色样本数据构建元训练和元测试任务,对舌色分类网络进行训练,学习到源域舌色分类的元知识。然后,将学到的元知识迁移到目标域中,指导目标域网络模型的训练,利用目标域的少量有标注数据和大量的无标注数据,实现目标域舌色样本的准确分类。所提出的方法摆脱了有监督学习对训练样本数据的依赖,具有重要的实际应用价值。

技术实现思路

[0007]本专利技术的目的在于利用元学习来实现域自适应舌色分类,解决舌色分类模型泛化能力差这个难题,仅使用目标域的少量标注样本,就可以实现目标域舌色的精确分类。
[0008]为了达到上述目标,本专利技术提出了如下的技术方案:首先,使用ResNet18作为分类骨干网络,利用源域的有标注数据构建元训练和元测试任务,对ResNet18进行预训练;然
后,使用目标域少量标注样本对源域预训练的模型进行微调,使其快速适应目标域样本数据的特点。利用微调后的模型对目标域的未标注数据进行分类,将分类预测结果作为伪标签。接下来,从中挑选出高质量的伪标签,作为标注数据,对目标域的分类模型进行微调,得到目标域的舌色分类模型。对于剩余的未标注数据,重复上述过程,最终得到一个高精度的目标域舌色分类模型。
[0009]该方案包括构建源域和目标域舌色分类数据集、基于元学习的源域舌色分类网络训练、目标域网络模型微调与高质量伪标签生成、目标域舌色分类模型训练等4个步骤。下面详细介绍每一个步骤。
[0010]步骤1:构建源域和目标域舌色分类数据集;
[0011]本专利技术使用2台SIPL型中医舌象仪采集舌图像,图1所示的是来自于2台舌象仪采集到的舌图像。可以看出,由于舌象仪的采集环境、设备参数等条件并不完全一致,致使不同舌象仪采集的舌图像分布不一致。利用2台舌象仪采集的设图像构建了SIPL

A和SIPL

B数据集,分别作为源域数据集和目标域数据集。
[0012]步骤2:基于元学习的源域舌色分类网络训练;
[0013]使用ResNet18作为元学习的骨干网络,利用源域的有标注数据构建元训练和元测试任务,对ResNet18进行训练,学习到源域舌色分类的元知识。
[0014]步骤3:目标域网络模型微调与高质量伪标签生成;
[0015]使用目标域少量标注样本对源域预训练的模型进行微调,使其快速适应目标域样本数据的特点。利用该模型对目标域的未标注数据进行分类,将分类预测结果作为伪标签。从中挑选出高质量的伪标签,形成标注数据样本。
[0016]步骤4:目标域舌色分类模型训练;
[0017]使用目标域少量标注样本和步骤3得到的高质量的伪标签对目标域的分类模型进行微调,得到目标域的舌色分类模型。对于剩余的未标注数据,重复步骤3、步骤4,最终得到一个高精度的目标域舌色分类模型。
[0018]与现有技术相比,本专利技术具有以下明显的优势和有益效果:
[0019]首先,本专利技术针对舌色分类模型跨设备泛化能力差的问题,基于元学习训练策略,提出了一种中医舌色域自适应分类方法。该方法摆脱了有监督学习对样本数据量的依赖,无需对大量的数据样本进行人工标注,仅利用目标域的少量标注数据和无标注数据,便可实现目标域舌色样本的准确分类。此外,本方法采用轻型卷积神经网络,大大减少了模型的参数量,使模型易于训练和使用,具有良好的实际应用价值。
附图说明
[0020]图1SIPL

A数据集与SIPL

B数据集的部分舌图像样例。
具体实施方式
[0021]结合以上描述和附图,对本专利技术的流程做进一步详细说明,但本专利所保护的范围并不限于该实施流程。
[0022]步骤1:构建源域和目标域舌色分类数据集
[0023]本专利技术所使用的数据集采集设备是2台SIPL型中医舌象仪。采用到的样本均由具
有多年临床诊断经验的中医医师手工进行了标注,样本分为暗红、淡红、红、暗紫等4类。SIPL

A数据集包括样本410例,其中暗红舌114例,淡红舌130例,红舌130例,暗紫色舌36例。SIPL

B数据集包括样本383例,其中暗红舌103例,淡红舌112例,红舌116例,暗紫色舌52例。
[0024]本专利技术将SIPL

A数据集作为源域数据集,SIPL

B数据集作为目标域数据集。源域数据集使用全部标注数据,目标域数据集中仅利用了20个有标注数据,每类5幅图像,其余数据均视为无标注数据。
[0025]步骤2:基于元学习的源域舌色分类网络训练
[0026]本专利技术构建了元训练和元测试任务,利用源域的有标注数据对ResNet18网络进行训练。元学习的目的是让网络模型从大量的元任务中学习到元知识,指导模型在新任务上的训练和学习,使其快速适应新任务样本数据的特性。
[0027]元学习中的数据集通常分为元训练集和元测试集,二者又将数据集进一步划分为支持集和查询集。
[0028]在元训练阶段,训练集可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元学习的中医舌色域自适应分类方法,其特征在于:首先,使用ResNet18作为分类骨干网络,利用源域的有标注数据构建元训练和元测试任务,对ResNet18进行预训练;然后,使用目标域少量标注样本对源域预训练的模型进行微调,使其快速适应目标域样本数据的特点;利用微调后的模型对目标域的未标注数据进行分类,将分类预测结果作为伪标签;接下来,从中挑选出高质量的伪标签,作为标注数据,对目标域的分类模型进行微调,得到目标域的舌色分类模型;对于剩余的未标注数据,重复上述过程,最终得到一个高精度的目标域舌色分类模型。2.根据权利要求1所述的一种基于元学习的中医舌色域自适应分类方法,其特征在于:包括构建源域和目标域舌色分类数据集、基于元学习的源域舌色分类网络训练、目标域网络模型微调与高质量伪标签生成、目标域舌色分类模型训练4个步骤;步骤1:构建源域和目标域舌色分类数据集;使用2台SIPL型中医舌象仪采集舌图像,利用2台舌象仪采集的设图像构建了SIPL

A和SIPL

B数据集,分别作为源域数据集和目标域数据集;步骤2:基于元学习的源域舌色分类网络训练;使用ResNet18作为元学习的骨干网络,利用源域的有标注数据构建元训练和元测试任务,对ResNet18进行训练,学习到源域舌色分类的元知识;步骤3:目标域网络模型微调与高质量伪标签生成;使用目标域少量标注样本对源域预训练的模型进行微调,使其快速适应目标域样本数据的特点;利用该模型对目标域的未标注数据进行分类,将分类预测结果作为伪标签;从中挑选出高质量的伪标签,形成标注数据样本;步骤4:目标域舌色分类模型训练;使用目标域少量标注样本和步骤3得到的高质量的伪标签对目标域的分类模型进行微调,得到目标域的舌色分类模型;对于剩余的未标注数据,重复步骤3、步骤4,最终得到一个高精度的目标域舌色分类模型。3.根据权利要求2所述的一种基于元学习的中医舌色域自适应分类方法,其特征在于:元学习中的数据集分为元训练集和元测试集,二者又将数据集进一步划分为支持集和查询集;在元训练阶段,训练集表示为D={(x1,y1),

,(x
N
,y
N
)},其中N是训练集D的类别数,x是训练样本,y是对应的标签;将训练集D划分成多个K
...

【专利技术属性】
技术研发人员:卓力张雷贾童瑶李艳萍张辉李晓光
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1