【技术实现步骤摘要】
基于内镜图像对机器学习模型进行训练的方法、装置和存储介质
本专利技术涉及机器学习领域,特别涉及一种用于基于内镜图像对机器学习模型进行训练的方法及装置以及存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(Machine ...
【技术保护点】
1.一种用于对机器学习模型进行训练的方法,其特征在于至少包括下述步骤:/n第一阶段:/n-输入未标注样本集;/n-基于经初始化或经预训练的所述机器学习模型通过主动学习从所述未标注样本集中选择待标注样本;/n-对所述待标注样本进行标注,并将经标注的样本存储在标注数据集中;/n-将所述标注数据集划分为训练数据集和验证数据集;/n-使用所述训练数据集对所述机器学习模型进行训练,得到经训练的机器学习模型;/n-使用所述验证数据集对所述经训练的机器学习模型进行验证,得到所述经训练的机器学习模型的性能;以及/n第二阶段:/n-在所述经训练的机器学习模型的性能小于预定性能指标时,重复所述 ...
【技术特征摘要】
1.一种用于对机器学习模型进行训练的方法,其特征在于至少包括下述步骤:
第一阶段:
-输入未标注样本集;
-基于经初始化或经预训练的所述机器学习模型通过主动学习从所述未标注样本集中选择待标注样本;
-对所述待标注样本进行标注,并将经标注的样本存储在标注数据集中;
-将所述标注数据集划分为训练数据集和验证数据集;
-使用所述训练数据集对所述机器学习模型进行训练,得到经训练的机器学习模型;
-使用所述验证数据集对所述经训练的机器学习模型进行验证,得到所述经训练的机器学习模型的性能;以及
第二阶段:
-在所述经训练的机器学习模型的性能小于预定性能指标时,重复所述第一阶段中的步骤;直到所述经训练的机器学习模型的性能大于等于所述预定性能指标。
2.根据权利要求1所述的方法,其特征在于,在所述第一阶段的主动学习中使用下述策略中的任一项或二者的组合从所述未标注样本集中选择所述待标注样本:
i)基于所述机器学习模型对所述未标注样本中的每个未标注样本进行预测,得到针对所述每个未标注样本的预测结果,并在所述预测结果针对分类任务中每个分类类别的分类预测概率在预定范围内时,选择所述未标注样本作为所述待标注样本;
ii)对所述未标注样本中的每个未标注样本进行数据增强,得到所述每个未标注样本的多个增强变型,基于所述机器学习模型对所述每个未标注样本的多个增强变型进行预测,得到针对所述每个未标注样本的多个增强变型的多个预测结果,并在所述多个预测结果中相同预测结果小于预定比例时,选择所述未标注样本作为所述待标注样本。
3.根据权利要求1所述的方法,其特征在于,在所述第二阶段的主动学习中使用下述策略中的任一项或其任意组合从所述未标注样本集中选择所述待标注样本:
i)基于所述机器学习模型对所述未标注样本中的每个未标注样本进行预测,得到针对所述每个未标注样本的预测结果,并在所述预测结果针对分类任务中每个分类类别的分类预测概率在预定范围内时,选择所述未标注样本作为所述待标注样本;
ii)对所述未标注样本中的每个未标注样本进行数据增强,得到所述每个未标注样本的多个增强变型,基于所述机器学习模型对所述每个未标注样本的多个增强变型进行预测,得到针对所述每个未标注样本的多个增强变型的多个预测结果,并在所述多个预测结果中相同预测结果小于预定比例时,选择所述未标注样本作为所述待标注样本;
iii)基于所述机器学习模型对所述标注数据集中的每个标注样本进行预测,得到所述每个标注样本在所述机器学习模型的最后一个卷积层的特征向量,计算所述标注数据集中的每个标注样本的最后一个卷积层的特征向量的均值LDc({0,1,…,N}),其中c表示所述分类任务的分类类别,N表示所述分类任务的分类类别总数;基于所述机器学习模型对所述未标注样本中的每个未标注样本进行预测,得到所述每个未标注样本在所述机器学习模型的最后一个卷积层的特征向量ULDi以及分类类别的预测结果Pi,Pi{0,1,…,N};并计算LDPi与各个ULDi的相似度,选择预定数量的相似度较小的样本作为所述待标注样本。
4.根据权利要求3所述的方法,其中所述计算LDPi与各个ULDi的相似度是通过计算LDPi与各个ULDi之间的余弦距离进行的。
5.根据权利要求2或3所述的方法,其中所述样本为图像,并且所述数据增强至少包括对所述图像的翻转、旋转、平移和缩放。
6.根据权利要求1-4中任一项所述的方法,其中所述将所述标注数据集划分为训练数据集和验证数据集包括:按照预定比例将所述标注数据集划分为训练数据集和验证数据集。
7.根据权利要求1-4中任一项所述的方法,其中所述样本为内镜图像,所述内镜图像至少包括食管、十二指肠、结直肠、胃和咽喉中的一个或多个。
8.根据权利要求1-4中任一项所述的方法,其中经训练的机器学习模型的性能包括F1分数。
9.一种用于基于内镜图像对机器学习模型进行训练的方法,其特征在于至少包括下述步骤:
第一阶段:
-输入未标注内镜图像样本集;
-基于经初始化或经预训练的所述机器学习模型通过主动学习从所述未标注内镜图像样本集中选择待标注内镜图像样本;
-对所述待标注内镜图像样本进行标注,并将经标注的内镜图像样本存储在标注内镜图像数据集中;
-将所述标注内镜图像数据集划分为训练内镜图像数据集和验证内镜图像数据集;
-使用所述训练内镜图像数据集对所述机器学习模型进行训练,得到经训练的机器学习模型;
-使用所述验证内镜图像数据集对所述经训练的机器学习模型进行验证,得到所述经训练的机器学习模型的性能;以及
第二阶段:
-在所述经训练的机器学习模型的性能小于预定性能指标时,重复所述第一阶段中的步骤;直到所述经训练的机器学习模型的性能大于等于所述预定性能指标...
【专利技术属性】
技术研发人员:王晓宁,孙钟前,付星辉,尚鸿,郑瀚,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。